正文

《永無止境:Google傳》第3章 沒有規(guī)則的世界(1)

永無止境:Google傳 作者:(美)道格拉斯·愛德華茲


在全面掌握搜索技術(shù)的基礎(chǔ)知識(shí)之前,我一直都沒能真正理解這個(gè)全新的世界??死赘瘛の鳡柛ニ固估梦绮烷e談時(shí)間,自愿為我和幾個(gè)不懂技術(shù)的員工“開班授課”,他把這種交談叫作“Google7A 面向非專業(yè)人員的搜索”??死赘癞厴I(yè)于斯坦福大學(xué),臉上掛著孩童般的笑容,很有幽默感。他喜歡說自己是Google的第1.5名員工,因?yàn)楣菊匠闪r(shí),他的名字在花名冊(cè)上的位置位于拉里和謝爾蓋之間??死赘衿綍r(shí)也給我們開小灶,不定哪個(gè)下午,他會(huì)面帶笑容,在走廊里假聲假氣地拖著長音問道:“吃小灶嗎?”這時(shí),我們這些人就會(huì)從各自的格子間中走出來,去吃他剛從Google的面包機(jī)中拿出來的沒有營養(yǎng)的無形面包。

我們集中在乒乓球室中上課,里面是以前放在蘇珊車庫里的深綠色乒乓球桌。桌上的球網(wǎng)放倒了,也許是前一天開董事會(huì)的時(shí)候,哪一位風(fēng)險(xiǎn)投資人為了找地方放筆記本電腦而把它放倒的吧。克雷格開始講課,我們則大快朵頤。

“一個(gè)搜索引擎有3個(gè)組成部分。”他開口說道。白板上的題目是“一個(gè)查詢的來龍去脈”,他在題目下面不斷寫著要講的內(nèi)容。

“首先,我們得收集網(wǎng)絡(luò)上的頁面信息,可以通過一種稱為 爬取 的進(jìn)程實(shí)現(xiàn)。我們的蜘蛛程序叫作Googlebot,它從一個(gè)鏈接跳到另一個(gè)鏈接,把每個(gè)網(wǎng)址及其內(nèi)容數(shù)據(jù)匯集起來。爬取過程通常需要一個(gè)月左右的時(shí)間,一旦完成,我們就有大量資料需要存儲(chǔ)到合用的列表中。這個(gè)過程叫作建索引?!?/p>

我在筆記本上記下“爬取”和“建索引”兩個(gè)詞,分別框起來,然后用線把兩個(gè)框連起來,隨即變成了一副眼鏡的模樣,一個(gè)蜘蛛從上面吊下,那里應(yīng)該就是鼻子了。

克雷格繼續(xù)說:“我們一旦有了索引,就會(huì)利用我們的PageRank算法,根據(jù)每個(gè)頁面的重要性,分配一個(gè)頁面次序。PageRank算法是Google的秘密調(diào)料。”

“秘密調(diào)料?”我們能比其他所有搜索引擎做得好,看來公司創(chuàng)始人很快就要透露底細(xì)了,我向前傾了傾身子,準(zhǔn)備好好學(xué)習(xí)。

“PageRank查看網(wǎng)絡(luò)上的所有網(wǎng)頁,根據(jù)指向每個(gè)網(wǎng)頁的其他鏈接衡量該網(wǎng)頁的價(jià)值。來自可靠網(wǎng)站的鏈接越多,這個(gè)網(wǎng)頁的PageRank值就越大。這是秘訣的前一半?!?/p>

我在“眼鏡”下方記下“PageRank”,在它周圍畫了個(gè)橢圓,看起來有點(diǎn)像是一個(gè)滑稽的嘴巴,于是又在上面畫了人頭,還在旁邊加了些頭發(fā)。

“另一半就是要斷定哪些結(jié)果跟我們收到的特定查詢的關(guān)聯(lián)程度最高。我們的大多數(shù)競(jìng)爭(zhēng)對(duì)手看的都是基本信息,比如某個(gè)詞在一個(gè)頁面上出現(xiàn)了多少次。我們看的是查詢條目在頁面上是怎么使用的。緊接著這個(gè)詞出現(xiàn)的是什么詞?用的是黑體還是其他不同的字體?在指向那些頁面的鏈接中,這個(gè)詞是怎樣出現(xiàn)的?這種鏈接分析非常重要。在指向一個(gè)頁面的鏈接中出現(xiàn)的詞叫作鏈接錨文本。”

在筆記本上,從那個(gè)滑稽嘴巴的一角長出一個(gè)鏈條,直到頁面底部,在底下突然出現(xiàn)了一個(gè)錨,周圍是露著牙齒的游魚。

克雷格繼續(xù)說:“查詢匹配的好壞決定我們的搜索質(zhì)量,由于評(píng)價(jià)查詢是否匹配得很好多少有些主觀,因而這不是一個(gè)確切的科學(xué)問題。如果你搜索輸入的是 jaguar (美洲豹),你指的是汽車、豹子,還是足球隊(duì)呢?對(duì)類似這樣的查詢,有時(shí)候很難消除歧義?!?/p>

我記下“消除歧義”這個(gè)詞,自己默念了3遍,以便把它變成我自己的詞匯。然后又畫了個(gè)有點(diǎn)像斑斑點(diǎn)點(diǎn)的貍貓的東西,它正追捕那個(gè)鐵錨邊上的魚。由于是在水里,我又加了幾個(gè)水泡。

“一旦確定了有用網(wǎng)頁的顯示順序,就需要把搜索結(jié)果反饋給提交查詢的用戶。這就是 gwiss 干的事?!笨死赘裾f到“gwiss”的時(shí)候,在白板上寫下“GWS”,下面注明是“Google Web Sever”(Google網(wǎng)絡(luò)服務(wù)器)。


上一章目錄下一章

Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)