“谷歌新聞”不能作為算法的成果展示柜,但這個項目的中等成績并沒有使谷歌對公司的創(chuàng)立使命產(chǎn)生懷疑?!八惴ā痹赪eb網(wǎng)頁搜索方面是如此之強,即使它在執(zhí)行其他任務(wù)時相對失敗,也都被谷歌之外的絕大多數(shù)觀察家們忽略了。谷歌就是這樣享受著各種實驗所帶來的樂趣,而當(dāng)一些實驗結(jié)果不如人意時,也不必因擔(dān)心形象受損而煩惱。
在將“算法”推向新領(lǐng)域的另一個項目中,結(jié)果比預(yù)想的要好,這就是計算機在歷史上所處理的最困難、最難協(xié)調(diào)的問題――語言翻譯。為了進入這個領(lǐng)域,谷歌在2003年初組建了一個課題小組,讓他們在所謂自動翻譯或機器翻譯的領(lǐng)域奮力開拓。他們的努力結(jié)出了豐碩的果實。他們開發(fā)的“算法”能夠完成――至少有時能夠完成――符合語句習(xí)慣的流利的翻譯,這一點令人驚嘆不已。同時,它還有效地利用了較為令人失望的谷歌新聞項目中所搜集的新聞報道資料。
機器翻譯是計算機先驅(qū)們在20世紀(jì)中葉首先設(shè)想出來的計算機應(yīng)用領(lǐng)域之一。1953年,哈佛大學(xué)計算機實驗室的霍華德?艾肯(Howard Aiken)用響亮的聲音宣布,他希望不久就可以開始將俄語逐字地譯為英語。他以為,將意義從一種語言精確地轉(zhuǎn)為另一種語言會是很容易的,隨著計算機功能的增強,文字上的修飾也會成為一個不難解決的問題。翌年,IBM的科學(xué)家和喬治敦大學(xué)的語言學(xué)家推出了一臺能夠進行俄英翻譯的機器,并且開啟了機器翻譯領(lǐng)域中的一個傳統(tǒng):對翻譯質(zhì)量的過高期待和轉(zhuǎn)換結(jié)果控制的力不從心。在一個只有250個單詞詞匯表的基礎(chǔ)上編寫的軟件,竟然負(fù)載了處理政治、法律、數(shù)學(xué)、化學(xué)、冶金學(xué)、交通和軍事等專業(yè)內(nèi)容的期待。但是,新聞界卻被要求相信這一切。
6年之后,IBM公司的Mark I型計算機正在進行原文翻譯,這次又是從俄文到英文――反映出冷戰(zhàn)中期語言翻譯上的當(dāng)務(wù)之急――據(jù)說達到了每分鐘800個單詞的速度,當(dāng)時的人工翻譯速度是一個工作日只有2600個單詞??勺g出來的文章卻不是只需稍加修飾那么簡單――一個關(guān)于U-2飛行員弗朗西斯·加利·鮑威爾(Francis Gary Powers)的段落的開頭是這樣的:“它30年/費。據(jù)它/它的所稱,它是較老的空軍中尉美國?!钡侨藗?nèi)匀粚Υ顺謽酚^態(tài)度,而作為“字對字”比對之補充的“句法規(guī)則”似乎被完全忽略了。國家標(biāo)準(zhǔn)局成立了一個“機器翻譯小組”來研究如何增加對語義和句子結(jié)構(gòu)的理解,以解決所謂“水下山羊”問題(指的是由機器翻譯的俄語工程學(xué)論文經(jīng)常將hydraulic ram[液壓油缸]譯成了“水下山羊”這一現(xiàn)象)。
應(yīng)用語言學(xué)研究改進了機器翻譯的質(zhì)量。1968年,專業(yè)翻譯公司Systran在巴黎創(chuàng)辦,它將成為為其他公司提供機器翻譯服務(wù)的先行者。這家公司由語言學(xué)家來解釋復(fù)雜的語法。一門語言,又一門語言,公司不斷增加能夠?qū)崿F(xiàn)雙語互譯的語言的數(shù)量,到2005年,已經(jīng)實現(xiàn)了40對語言之間的互譯。當(dāng)谷歌打算提供用原文以外的其他語言顯示的Web頁面供用戶瀏覽時,它便求助于Systran公司為其后臺的機器翻譯提供技術(shù)支持,使谷歌的網(wǎng)頁可以根據(jù)用戶的具體要求進行動態(tài)顯示。當(dāng)然,各語種之間的翻譯水平并不平衡,在最好的情況下,它也只能轉(zhuǎn)達源文件中的梗概。符合語言習(xí)慣的段落仍舊難以表述。但這個缺陷似乎是機器翻譯與生俱來的:任何算法也不能代替人工翻譯。