但是,Systran建立在規(guī)則基礎(chǔ)上的技術(shù)只是機(jī)器翻譯的一種形式。另外一種不同的方法――IBM的研究者在20世紀(jì)90年代展示出其前景的――被稱為統(tǒng)計(jì)機(jī)器翻譯。它代表了告別以規(guī)則為基礎(chǔ)的方法而轉(zhuǎn)向人工智能研究的大趨勢。它不是建立在人工擬定的語言規(guī)則基礎(chǔ)上,而是建立在由軟件自己開發(fā)的翻譯模式基礎(chǔ)上。由于軟件接收了數(shù)以百萬計(jì)的由人工完成的譯文組成的文件――例如在加拿大議會(huì)用英語發(fā)表的演講及其官方法語譯文。這個(gè)軟件注重尋找句型、對比詞匯和短語,從A語言的第一段第一句以及它在B語言的相對應(yīng)的句子開始。僅僅對照一組文件,推導(dǎo)出來的結(jié)論當(dāng)然少得可憐。而一旦對照的文件達(dá)到數(shù)百萬組,那么一種語言中的句型和短語在目標(biāo)語言中具體用什么方式表達(dá),就可以根據(jù)統(tǒng)計(jì)材料推導(dǎo)出來。統(tǒng)計(jì)機(jī)器翻譯是谷歌研究人員在2003年初才開始研究的方法。
谷歌采用聯(lián)合國的多語種文件作為訓(xùn)練材料,向它的算法輸入了2000億個(gè)單詞并讓這個(gè)軟件算出了每一對語言之間配對的句型。這個(gè)結(jié)果是顯而易見的。谷歌的說英語的程序員雖然不具備閱讀漢語或阿拉伯語的能力,也根本不懂漢語或阿拉伯語的語音、語義或語法,但他們卻設(shè)計(jì)出了一個(gè)能夠自學(xué)的算法,它可以提供準(zhǔn)確的、有時(shí)甚至是相當(dāng)流利的譯文。在2005年的一次會(huì)議上,谷歌第一次公開地討論了它所進(jìn)行的工作。為了證明統(tǒng)計(jì)機(jī)器翻譯能夠處理足夠大量的翻譯文本資料,特意用阿拉伯語報(bào)紙上的一段新聞提要的兩種英文譯本進(jìn)行了演示。第一種譯文由以規(guī)則為基礎(chǔ)的Systran軟件提供,它將那段阿拉伯文顯示為“阿爾卑斯山白色的新出場的磁帶注冊為咖啡批準(zhǔn)拉登”;第二個(gè)來自谷歌剛剛問世的程序,它顯示了一段完全不同的譯文:“白宮證實(shí)有新的本?拉登磁帶存在?!?/p>
谷歌的翻譯算法在記者招待會(huì)這類有人監(jiān)控的場合表現(xiàn)似乎令人印象深刻,證明它在獨(dú)立的測試中也站得住腳。的確,它的表現(xiàn)非常之好。2005年,谷歌第一次參加由國家標(biāo)準(zhǔn)與技術(shù)研究所主辦的機(jī)器翻譯軟件年度競賽,這個(gè)賽事吸引了來自大學(xué)、公司、政府實(shí)驗(yàn)室和商業(yè)軟件制造業(yè)的研究人員。谷歌在有11個(gè)入選者參加的阿(阿拉伯語)譯英比賽中名列第一(IBM名列第三,Systran名列第七),在有16個(gè)參賽者的漢譯英比賽中也名列第一(IBM名列第六,Systran名列第十二)。這對一個(gè)新手來說是個(gè)不錯(cuò)的成績。
在這次比賽中,基本的測量手段是將機(jī)器制作的譯文同被視為“黃金標(biāo)準(zhǔn)”的人類翻譯家提供的參考譯文進(jìn)行比照。從0到1的得分情況表明機(jī)器翻譯與人工翻譯的吻合度――1表示完全吻合。分?jǐn)?shù)是一個(gè)最直接的計(jì)算問題,它由評估軟件自動(dòng)完成,減少了人工評判的主觀性。同樣的軟件也曾被用在比賽之外。研究人員可以對算法進(jìn)行微調(diào),將測試文件輸進(jìn)去,馬上就可以看到,在翻譯質(zhì)量可測量的改進(jìn)中,結(jié)果是否發(fā)生了變化。
谷歌不僅利用雙語平行文本建立了一種翻譯模式,它還用軟件創(chuàng)造了單語種的“語言模式”,對由翻譯模式制作的任何譯文進(jìn)行潤色,使之更加流暢?!八惴ā痹诖罅烤邆鋵I(yè)水準(zhǔn)的文獻(xiàn)中尋找句型,進(jìn)而教會(huì)自己識別哪些是地道的英語表達(dá)方式。恰巧,谷歌已經(jīng)在它的服務(wù)器中使用了一個(gè)這種類型的文集――由“谷歌新聞”所檢索的報(bào)道。即使“谷歌新聞”的用戶總是被導(dǎo)向新聞機(jī)構(gòu)的Web網(wǎng)頁,但谷歌仍將貯存的新聞副本饋送給它自己的算法。人們偶然發(fā)現(xiàn),這個(gè)經(jīng)專業(yè)手法潤色的文本寶庫――截至2007年4月已經(jīng)收集了5億字――是個(gè)使用起來極其方便的訓(xùn)練用文集,絕對適合于教會(huì)機(jī)器流暢地使用英語。