如果你所從事的是將全世界的信息組織起來的職業(yè),那么,在某個(gè)領(lǐng)域?qū)W到的東西總會(huì)在另一個(gè)領(lǐng)域里得到實(shí)際應(yīng)用。如果說谷歌的統(tǒng)計(jì)機(jī)器翻譯項(xiàng)目得益于谷歌旗下其他部門的工作,那么它也以各種方式回報(bào)了這些部門的恩惠。研發(fā)單一語言的統(tǒng)計(jì)技術(shù)模型轉(zhuǎn)過來為研發(fā)任一語言的發(fā)音監(jiān)測軟件提供了便利(這個(gè)軟件的監(jiān)測范圍包括了哪怕是新近出現(xiàn)的名人姓名的發(fā)音),它無需經(jīng)過人工編輯之手,也無需借助詞典,只要給“算法”輸入足夠分量的公開發(fā)表的文章,就絕對(duì)可以讓它掌握正確的發(fā)音。能使它做到這一步的技術(shù)保障就是對(duì)出現(xiàn)頻率的統(tǒng)計(jì)分析。
谷歌使用的搜索程序也得到了由研發(fā)團(tuán)隊(duì)使用的計(jì)算部件的極大幫助。由該領(lǐng)域的許多學(xué)術(shù)研究者使用的一套數(shù)據(jù)(由語言數(shù)據(jù)聯(lián)盟Linguistic Data Consortium提供)有52億個(gè)單詞。但谷歌可以處理大得多的集合,如僅僅從它所索引的網(wǎng)頁中抽取出來的單詞就達(dá)到了2×1012個(gè)?!拔覀儧]有更好的算法,”谷歌的彼得?諾維奇說,“我們只是有更多的數(shù)據(jù)?!?/p>
為了給單句找到最好的譯文,谷歌的算法搜索了上百萬可能的短語組合。硬盤不適合作為保留數(shù)據(jù)隨時(shí)備查的中介,只有隨機(jī)存取內(nèi)存(RAM,random access memory)才最合適。隨機(jī)存取內(nèi)存存量巨大是非常必要的――谷歌供人隨時(shí)查考的正是這巨大的存量。統(tǒng)計(jì)機(jī)器翻譯很適合于分布在數(shù)千臺(tái)機(jī)器中進(jìn)行,而谷歌的數(shù)據(jù)中心(雖然最初是為了其他目的而建)的設(shè)備就能承受這種計(jì)算上的負(fù)荷。
有了可以處理任何規(guī)模的計(jì)算問題的計(jì)算基礎(chǔ)設(shè)施,谷歌的研究者便擁有了一個(gè)可以傲視群雄的巨大優(yōu)勢。他們的程序運(yùn)行之快,在2005年國家標(biāo)準(zhǔn)和技術(shù)研究所舉行的機(jī)器翻譯競賽中已經(jīng)得到了體現(xiàn);在2006年的競賽中,他們又占據(jù)了領(lǐng)先地位。在參加阿-英翻譯的22個(gè)競賽者中,谷歌的整體成績排名第一;在參加漢-英翻譯的24個(gè)競賽者中,谷歌名列第二(被南加州大學(xué)著名的信息科學(xué)研究所險(xiǎn)勝)。
ystran的主席兼CEO季米特里斯?沙巴塔卡基斯(Dimitris Sabatakakis)不能理解為何統(tǒng)計(jì)機(jī)器翻譯的結(jié)果總是超過他的規(guī)則基礎(chǔ)技術(shù)。2005年競賽結(jié)束后,他替以規(guī)則為基礎(chǔ)的方法作了些辯護(hù),并建議沒有雇用以漢語為母語的人員的谷歌不要再玩弄類似花招。就Systran而言,“如果我們沒有中國人,我們的系統(tǒng)就可能出現(xiàn)嚴(yán)重的錯(cuò)誤”。他不理解,如果沒有母語為漢語的人對(duì)譯文反復(fù)檢驗(yàn),谷歌為何能在2005年把Systran徹底打敗。但他沒有立即報(bào)名再次參加比賽:Systran從2006年的競賽中消失了。2007年沒有舉行比賽。所以尚不清楚Systran是否已經(jīng)決定永遠(yuǎn)不再與統(tǒng)計(jì)機(jī)器翻譯直接較量。
谷歌沒有聲稱擁有最復(fù)雜的翻譯算法,但它的確擁有一些其他的機(jī)器翻譯團(tuán)隊(duì)所不具備的東西:體量最大的訓(xùn)練數(shù)據(jù)。2007年,負(fù)責(zé)機(jī)器翻譯研究的工程師弗朗茨·奧奇(Franz Och)說:“在自然程序領(lǐng)域有一種著名的說法,‘更多的數(shù)據(jù)就是更好的數(shù)據(jù)’?!睘槭裁垂雀枰恢笔褂媚切腤eb網(wǎng)頁中搜集的2×1012詞匯量的文本?原因就在于:寫作質(zhì)量無從擔(dān)保,但絕對(duì)海量的額外數(shù)據(jù)對(duì)翻譯算法質(zhì)量的改進(jìn)卻是實(shí)實(shí)在在的。