官术网_书友最值得收藏!

1.3.2 大數(shù)據(jù)的簡單算法與小數(shù)據(jù)的復(fù)雜算法

20世紀(jì)40年代,計(jì)算機(jī)由真空管制成,要占據(jù)整個(gè)房間這么大的空間。而機(jī)器翻譯也只是計(jì)算機(jī)開發(fā)人員的一個(gè)想法。所以,計(jì)算機(jī)翻譯也成了亟待解決的問題。

最初,計(jì)算機(jī)研發(fā)人員打算將語法規(guī)則和雙語詞典結(jié)合在一起。1954年,IBM以計(jì)算機(jī)中的250個(gè)詞語和六條語法規(guī)則為基礎(chǔ),將60個(gè)俄語詞組翻譯成英語,結(jié)果振奮人心。IBM701通過穿孔卡片讀取了一句話,并將其譯成了“我們通過語言來交流思想”。在慶祝這個(gè)成就的發(fā)布會(huì)上,一篇報(bào)道提到這60句話翻譯得很流暢。這個(gè)程序的指揮官利昂·多斯特爾特表示,他相信“在三五年后,機(jī)器翻譯將會(huì)變得很成熟”。

事實(shí)證明,計(jì)算機(jī)翻譯最初的成功誤導(dǎo)了人們。1966年,一群機(jī)器翻譯的研究人員意識到,翻譯比他們想象的更困難,他們不得不承認(rèn)自己的失敗。機(jī)器翻譯不能只是讓計(jì)算機(jī)熟悉常用規(guī)則,還必須教會(huì)計(jì)算機(jī)處理特殊的語言情況。畢竟,翻譯不僅僅只是記憶和復(fù)述,也涉及選詞,而明確地教會(huì)計(jì)算機(jī)這些非常不現(xiàn)實(shí)。

在20世紀(jì)80年代后期,IBM的研發(fā)人員提出了一個(gè)新的想法。與單純教給計(jì)算機(jī)語言規(guī)則和詞匯相比,他們試圖讓計(jì)算機(jī)自己估算一個(gè)詞或一個(gè)詞組適合用來翻譯另一種語言中的一個(gè)詞和詞組的可能性,然后再?zèng)Q定某個(gè)詞和詞組在另一種語言中的對等詞和詞組。

20世紀(jì)90年代,IBM這個(gè)名為Candide的項(xiàng)目花費(fèi)了大概十年的時(shí)間,將大約有300萬句之多的加拿大議會(huì)資料譯成了英語和法語并出版。由于是官方文件,翻譯的標(biāo)準(zhǔn)非常高。用那個(gè)時(shí)候的標(biāo)準(zhǔn)來看,數(shù)據(jù)量非常之龐大。統(tǒng)計(jì)機(jī)器學(xué)習(xí)從誕生之日起,就聰明地把翻譯的挑戰(zhàn)變成了一個(gè)數(shù)學(xué)問題,而這似乎很有效,計(jì)算機(jī)翻譯能力在短時(shí)間內(nèi)就提高了很多。但這次飛躍之后,IBM公司盡管投入了很多資金,但取得的成效不大。最終,IBM公司停止了這個(gè)項(xiàng)目。

2006年,谷歌公司也開始涉足機(jī)器翻譯,這被當(dāng)作實(shí)現(xiàn)“搜集全世界的數(shù)據(jù)資源,并讓人人都可享受這些資源”這個(gè)目標(biāo)的一個(gè)步驟。谷歌翻譯開始利用一個(gè)更大更繁雜的數(shù)據(jù)庫,也就是全球的互聯(lián)網(wǎng),而不再只利用兩種語言之間的文本翻譯。

為了訓(xùn)練計(jì)算機(jī),谷歌翻譯系統(tǒng)會(huì)吸收它能找到的所有翻譯。它從各種各樣語言的公司網(wǎng)站上尋找對譯文檔,還會(huì)尋找聯(lián)合國和歐盟這些國際組織發(fā)布的官方文件和報(bào)告的譯本。它甚至?xí)账僮x項(xiàng)目中的書籍翻譯。谷歌翻譯部的負(fù)責(zé)人弗朗茲·奧齊是機(jī)器翻譯界的權(quán)威,他指出,“谷歌的翻譯系統(tǒng)不會(huì)像Candide一樣只是仔細(xì)地翻譯300萬句話,它會(huì)掌握用不同語言翻譯的質(zhì)量參差不齊的數(shù)十億頁的文檔。”不考慮翻譯質(zhì)量的話,上萬億的語料庫就相當(dāng)于950億句英語。

盡管其輸入源很混亂,但較其他翻譯系統(tǒng),谷歌的翻譯質(zhì)量相對而言還是最好的,而且可翻譯的內(nèi)容更多。到2012年年中,谷歌數(shù)據(jù)庫涵蓋了60多種語言,甚至能夠接受14種語言的語音輸入,并有很流利的對等翻譯。之所以能做到這些,是因?yàn)樗鼘⒄Z言視為能夠判別可能性的數(shù)據(jù),而不是語言本身。如果要將印度語譯成加泰羅尼亞語,谷歌就會(huì)把英語作為中介語言。因?yàn)樵诜g時(shí)它能適當(dāng)增減詞匯,所以谷歌的翻譯比其他系統(tǒng)的翻譯靈活很多。

谷歌的翻譯之所以更好并不是因?yàn)樗鼡碛幸粋€(gè)更好的算法機(jī)制與這是因?yàn)楣雀璺g增加了很多各種各樣的數(shù)據(jù)。從谷歌的例子來看,它之所以能比IBM的Candide系統(tǒng)多利用成千上萬的數(shù)據(jù),是因?yàn)樗邮芰擞绣e(cuò)誤的數(shù)據(jù)。2006年,谷歌發(fā)布的上萬億的語料庫,就是來自于互聯(lián)網(wǎng)的一些廢棄內(nèi)容。這就是“訓(xùn)練集”,可以正確地推算出英語詞匯搭配在一起的可能性。

谷歌公司人工智能專家彼得·諾維格在一篇題為《數(shù)據(jù)的非理性效果》的文章中寫道,“大數(shù)據(jù)基礎(chǔ)上的簡單算法比小數(shù)據(jù)基礎(chǔ)上的復(fù)雜算法更加有效?!彼麄冎赋龌祀s是關(guān)鍵?!坝捎诠雀枵Z料庫的內(nèi)容來自于未經(jīng)過濾的網(wǎng)頁內(nèi)容,所以會(huì)包含一些不完整的句子、拼寫錯(cuò)誤、語法錯(cuò)誤以及其他各種錯(cuò)誤。況且,它也沒有詳細(xì)的人工糾錯(cuò)后的注解。但是,谷歌語料庫的數(shù)據(jù)優(yōu)勢完全壓倒了缺點(diǎn)?!?/p>

主站蜘蛛池模板: 扬州市| 马山县| 贺兰县| 科技| 美姑县| 嫩江县| 清丰县| 通河县| 米易县| 武定县| 宿迁市| 普陀区| 伊春市| 翼城县| 铅山县| 原平市| 潼关县| 淳化县| 谢通门县| 东阿县| 通城县| 台安县| 浦北县| 大新县| 漠河县| 密山市| 方山县| 千阳县| 壶关县| 西丰县| 南乐县| 昌黎县| 马山县| 宜宾县| 资兴市| 大港区| 临漳县| 环江| 高唐县| 志丹县| 承德市|