人妻无码精品一区二区,免费在线观看麻豆视频,亚洲AV无码成人YELLOW

如果你所從事的是將全世界的信息組織起來的職業(yè)，那么，在某個(gè)領(lǐng)域?qū)W到的東西總會(huì)在另一個(gè)領(lǐng)域里得到實(shí)際應(yīng)用。如果說谷歌的統(tǒng)計(jì)機(jī)器翻譯項(xiàng)目得益于谷歌旗下其他部門的工作，那么它也以各種方式回報(bào)了這些部門的恩惠。研發(fā)單一語言的統(tǒng)計(jì)技術(shù)模型轉(zhuǎn)過來為研發(fā)任一語言的發(fā)音監(jiān)測(cè)軟件提供了便利（這個(gè)軟件的監(jiān)測(cè)范圍包括了哪怕是新近出現(xiàn)的名人姓名的發(fā)音），它無需經(jīng)過人工編輯之手，也無需借助詞典，只要給“算法”輸入足夠分量的公開發(fā)表的文章，就絕對(duì)可以讓它掌握正確的發(fā)音。能使它做到這一步的技術(shù)保障就是對(duì)出現(xiàn)頻率的統(tǒng)計(jì)分析。

谷歌使用的搜索程序也得到了由研發(fā)團(tuán)隊(duì)使用的計(jì)算部件的極大幫助。由該領(lǐng)域的許多學(xué)術(shù)研究者使用的一套數(shù)據(jù)（由語言數(shù)據(jù)聯(lián)盟Linguistic Data Consortium提供）有52億個(gè)單詞。但谷歌可以處理大得多的集合，如僅僅從它所索引的網(wǎng)頁(yè)中抽取出來的單詞就達(dá)到了2×1012個(gè)?！拔覀儧]有更好的算法，”谷歌的彼得?諾維奇說，“我們只是有更多的數(shù)據(jù)。”

為了給單句找到最好的譯文，谷歌的算法搜索了上百萬可能的短語組合。硬盤不適合作為保留數(shù)據(jù)隨時(shí)備查的中介，只有隨機(jī)存取內(nèi)存（RAM，random access memory）才最合適。隨機(jī)存取內(nèi)存存量巨大是非常必要的――谷歌供人隨時(shí)查考的正是這巨大的存量。統(tǒng)計(jì)機(jī)器翻譯很適合于分布在數(shù)千臺(tái)機(jī)器中進(jìn)行，而谷歌的數(shù)據(jù)中心（雖然最初是為了其他目的而建）的設(shè)備就能承受這種計(jì)算上的負(fù)荷。

有了可以處理任何規(guī)模的計(jì)算問題的計(jì)算基礎(chǔ)設(shè)施，谷歌的研究者便擁有了一個(gè)可以傲視群雄的巨大優(yōu)勢(shì)。他們的程序運(yùn)行之快，在2005年國(guó)家標(biāo)準(zhǔn)和技術(shù)研究所舉行的機(jī)器翻譯競(jìng)賽中已經(jīng)得到了體現(xiàn)；在2006年的競(jìng)賽中，他們又占據(jù)了領(lǐng)先地位。在參加阿－英翻譯的22個(gè)競(jìng)賽者中，谷歌的整體成績(jī)排名第一；在參加漢－英翻譯的24個(gè)競(jìng)賽者中，谷歌名列第二（被南加州大學(xué)著名的信息科學(xué)研究所險(xiǎn)勝）。

ystran的主席兼CEO季米特里斯?沙巴塔卡基斯（Dimitris Sabatakakis）不能理解為何統(tǒng)計(jì)機(jī)器翻譯的結(jié)果總是超過他的規(guī)則基礎(chǔ)技術(shù)。2005年競(jìng)賽結(jié)束后，他替以規(guī)則為基礎(chǔ)的方法作了些辯護(hù)，并建議沒有雇用以漢語為母語的人員的谷歌不要再玩弄類似花招。就Systran而言，“如果我們沒有中國(guó)人，我們的系統(tǒng)就可能出現(xiàn)嚴(yán)重的錯(cuò)誤”。他不理解，如果沒有母語為漢語的人對(duì)譯文反復(fù)檢驗(yàn)，谷歌為何能在2005年把Systran徹底打敗。但他沒有立即報(bào)名再次參加比賽：Systran從2006年的競(jìng)賽中消失了。2007年沒有舉行比賽。所以尚不清楚Systran是否已經(jīng)決定永遠(yuǎn)不再與統(tǒng)計(jì)機(jī)器翻譯直接較量。

谷歌沒有聲稱擁有最復(fù)雜的翻譯算法，但它的確擁有一些其他的機(jī)器翻譯團(tuán)隊(duì)所不具備的東西：體量最大的訓(xùn)練數(shù)據(jù)。2007年，負(fù)責(zé)機(jī)器翻譯研究的工程師弗朗茨·奧奇（Franz Och）說：“在自然程序領(lǐng)域有一種著名的說法，‘更多的數(shù)據(jù)就是更好的數(shù)據(jù)’?！睘槭裁垂雀枰恢笔褂媚切腤eb網(wǎng)頁(yè)中搜集的2×1012詞匯量的文本？原因就在于：寫作質(zhì)量無從擔(dān)保，但絕對(duì)海量的額外數(shù)據(jù)對(duì)翻譯算法質(zhì)量的改進(jìn)卻是實(shí)實(shí)在在的。