正文

獨步天下的谷歌算法(10)

星球Google 作者:(美)蘭德爾·斯特羅斯


“谷歌新聞”不能作為算法的成果展示柜,但這個項目的中等成績并沒有使谷歌對公司的創(chuàng)立使命產生懷疑?!八惴ā痹赪eb網頁搜索方面是如此之強,即使它在執(zhí)行其他任務時相對失敗,也都被谷歌之外的絕大多數(shù)觀察家們忽略了。谷歌就是這樣享受著各種實驗所帶來的樂趣,而當一些實驗結果不如人意時,也不必因擔心形象受損而煩惱。

在將“算法”推向新領域的另一個項目中,結果比預想的要好,這就是計算機在歷史上所處理的最困難、最難協(xié)調的問題――語言翻譯。為了進入這個領域,谷歌在2003年初組建了一個課題小組,讓他們在所謂自動翻譯或機器翻譯的領域奮力開拓。他們的努力結出了豐碩的果實。他們開發(fā)的“算法”能夠完成――至少有時能夠完成――符合語句習慣的流利的翻譯,這一點令人驚嘆不已。同時,它還有效地利用了較為令人失望的谷歌新聞項目中所搜集的新聞報道資料。

機器翻譯是計算機先驅們在20世紀中葉首先設想出來的計算機應用領域之一。1953年,哈佛大學計算機實驗室的霍華德?艾肯(Howard Aiken)用響亮的聲音宣布,他希望不久就可以開始將俄語逐字地譯為英語。他以為,將意義從一種語言精確地轉為另一種語言會是很容易的,隨著計算機功能的增強,文字上的修飾也會成為一個不難解決的問題。翌年,IBM的科學家和喬治敦大學的語言學家推出了一臺能夠進行俄英翻譯的機器,并且開啟了機器翻譯領域中的一個傳統(tǒng):對翻譯質量的過高期待和轉換結果控制的力不從心。在一個只有250個單詞詞匯表的基礎上編寫的軟件,竟然負載了處理政治、法律、數(shù)學、化學、冶金學、交通和軍事等專業(yè)內容的期待。但是,新聞界卻被要求相信這一切。

6年之后,IBM公司的Mark I型計算機正在進行原文翻譯,這次又是從俄文到英文――反映出冷戰(zhàn)中期語言翻譯上的當務之急――據(jù)說達到了每分鐘800個單詞的速度,當時的人工翻譯速度是一個工作日只有2600個單詞??勺g出來的文章卻不是只需稍加修飾那么簡單――一個關于U-2飛行員弗朗西斯·加利·鮑威爾(Francis Gary Powers)的段落的開頭是這樣的:“它30年/費。據(jù)它/它的所稱,它是較老的空軍中尉美國?!钡侨藗內匀粚Υ顺謽酚^態(tài)度,而作為“字對字”比對之補充的“句法規(guī)則”似乎被完全忽略了。國家標準局成立了一個“機器翻譯小組”來研究如何增加對語義和句子結構的理解,以解決所謂“水下山羊”問題(指的是由機器翻譯的俄語工程學論文經常將hydraulic ram[液壓油缸]譯成了“水下山羊”這一現(xiàn)象)。

應用語言學研究改進了機器翻譯的質量。1968年,專業(yè)翻譯公司Systran在巴黎創(chuàng)辦,它將成為為其他公司提供機器翻譯服務的先行者。這家公司由語言學家來解釋復雜的語法。一門語言,又一門語言,公司不斷增加能夠實現(xiàn)雙語互譯的語言的數(shù)量,到2005年,已經實現(xiàn)了40對語言之間的互譯。當谷歌打算提供用原文以外的其他語言顯示的Web頁面供用戶瀏覽時,它便求助于Systran公司為其后臺的機器翻譯提供技術支持,使谷歌的網頁可以根據(jù)用戶的具體要求進行動態(tài)顯示。當然,各語種之間的翻譯水平并不平衡,在最好的情況下,它也只能轉達源文件中的梗概。符合語言習慣的段落仍舊難以表述。但這個缺陷似乎是機器翻譯與生俱來的:任何算法也不能代替人工翻譯。


上一章目錄下一章

Copyright ? 讀書網 ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號