正文

獨(dú)步天下的谷歌算法(8)

星球Google 作者:(美)蘭德爾·斯特羅斯


盡管如此,如果遇到非人工因素引起的算法方面少量的簡(jiǎn)單錯(cuò)誤時(shí),谷歌還是允許作一點(diǎn)細(xì)微的調(diào)整。例如,一個(gè)關(guān)于“O’Reilly”的搜索結(jié)果僅與保守黨時(shí)事評(píng)論員比爾?歐萊利(Bill ’Reilly)相關(guān),把其他可能的結(jié)果(如名列“財(cái)富500強(qiáng)”的O’Reilly汽車部件公司)都排除在外。谷歌承認(rèn)這是個(gè)問(wèn)題,但這是由特殊情況造成的,對(duì)算法的等級(jí)排名來(lái)說(shuō)是個(gè)例外。經(jīng)過(guò)調(diào)整后,關(guān)于“O’Reilly”的索引結(jié)果的第一頁(yè)分為三段,第一段是混雜的O’Reilly鏈接,第二段是O’Reilly汽車部件公司,第三段是Bill O’Reilly。布林和佩奇懂得,人工介入的調(diào)整手段,決不能頻繁使用;然而他們也完全承認(rèn),人類能夠充當(dāng)質(zhì)量管理的檢察員。谷歌聘用人工評(píng)估員對(duì)算法經(jīng)各式微調(diào)后所推出的結(jié)果的質(zhì)量進(jìn)行檢查――2007年,谷歌在世界范圍內(nèi)與1萬(wàn)人簽訂了合同,請(qǐng)他們做質(zhì)量評(píng)估。但他們的反饋只用于對(duì)算法本身進(jìn)行調(diào)整,而不涉及單獨(dú)詞語(yǔ)的搜索結(jié)果。如果谷歌允許在搜索之后用人工對(duì)算法進(jìn)行復(fù)評(píng)或?qū)Y(jié)果進(jìn)行調(diào)整,那么系統(tǒng)必然會(huì)慢到無(wú)法接受的程度。在谷歌,對(duì)規(guī)模的追求永遠(yuǎn)是第一位的,這就要求幾乎完全依賴自動(dòng)化程序(另一個(gè)小小的例外是它希望用人工排除那些已經(jīng)被用戶舉報(bào)為垃圾的鏈接)。雅虎無(wú)法隨著Web的增長(zhǎng)而擴(kuò)展由人工編輯的目錄,暴露出依賴人工的系統(tǒng)的局限性。谷歌要避免雅虎的錯(cuò)誤,就必須具備與Web同步增長(zhǎng)的能力。

谷歌的算法不能順利地轉(zhuǎn)為Web以外的信息種類,如圖書和視頻。Web以鏈接的形式提供了豐富的內(nèi)部數(shù)據(jù),算法可以利用它們來(lái)判斷它所處理的信息的質(zhì)量。那么,它能夠掌握內(nèi)部線索不相同的數(shù)據(jù)嗎?谷歌最終需要改變它對(duì)公式的依賴而更多地認(rèn)可人工輸入嗎?“社會(huì)搜索”――即用戶對(duì)某個(gè)網(wǎng)頁(yè)的關(guān)聯(lián)性和有用性的評(píng)價(jià)決定該網(wǎng)頁(yè)在搜索結(jié)果中的顯示位置――能夠處理更廣泛的信息分類系列并且比算法做得更好嗎?要認(rèn)識(shí)算法模式在新領(lǐng)域的應(yīng)用潛力及其局限性,只要近距離觀察谷歌如何在新項(xiàng)目中擴(kuò)大其領(lǐng)域,就可以對(duì)這個(gè)問(wèn)題有比較正確的理解。

認(rèn)可度較低的試驗(yàn)始于2002年3月,當(dāng)時(shí)谷歌決定在信息分類、集合、給新聞報(bào)道劃分等級(jí)等方面嘗試用算法代替人工編輯。當(dāng)谷歌的管理層準(zhǔn)備引入這項(xiàng)服務(wù)時(shí),公司內(nèi)部對(duì)于完全依靠軟件來(lái)決定哪些報(bào)道應(yīng)該放在谷歌新聞網(wǎng)頁(yè)的顯著位置的做法是否明智有過(guò)不同意見。谷歌的產(chǎn)品管理和營(yíng)銷高級(jí)副總裁喬納森?羅森伯格(Jonathan Rosenberg)建議道:“只要分一些編輯去做這項(xiàng)工作,我們的新聞產(chǎn)品在互聯(lián)網(wǎng)界就會(huì)是最好的?!钡抢?佩奇否決了這項(xiàng)提議,因?yàn)椤叭斯し桨覆痪咭?guī)?!薄?/p>

當(dāng)谷歌新聞網(wǎng)站在2002年9月正式推出時(shí),它引用的新聞來(lái)源有4000多個(gè)。在新聞頁(yè)面的底端印有一個(gè)心血來(lái)潮的啟事:“本網(wǎng)頁(yè)在編制過(guò)程中無(wú)人受到傷害,甚至無(wú)人被利用?!痹谝粋€(gè)針對(duì)谷歌新聞提出問(wèn)題的頁(yè)面的頂端,公司自己的提問(wèn)和回答是――問(wèn):“谷歌新聞主頁(yè)的編輯是誰(shuí)?有一條新聞的標(biāo)題非常亂?!贝穑骸坝?jì)算機(jī)算法,沒有人工介入。”谷歌驕傲地讓編輯、責(zé)任編輯和執(zhí)行編輯的位置空著?――決定某條新聞上頭條的不是某個(gè)人,也沒有政治觀點(diǎn)或意識(shí)形態(tài)的因素?fù)诫s在內(nèi)。谷歌說(shuō),和搜索網(wǎng)頁(yè)的運(yùn)算規(guī)則一樣,編輯新聞報(bào)道的運(yùn)算規(guī)則“也主要依靠網(wǎng)站出版商的集體判斷來(lái)確認(rèn)哪些網(wǎng)站提供了最有價(jià)值又最有意義的信息”。谷歌知道,它的算法還存在著一些缺陷,所以只要讀者發(fā)現(xiàn)了“奇怪的結(jié)果”,一個(gè)電子郵件就可以讓谷歌的工程師知道,不必用人工調(diào)整結(jié)果,而只需幫助“微調(diào)一下算法”即可。


上一章目錄下一章

Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)