正文

搜索隱藏的意思

谷歌小子 作者:(美)理查德·勃蘭特


拉里幾乎是偶然地撞入了創(chuàng)建搜索引擎之路,推動他的是兩股不同的力量――一個政府資助的研究項目和互聯(lián)網(wǎng)的興盛。他們的工作受到了一個名為“數(shù)字圖書館倡議”的研究項目的資助,該項目的啟動是國防部的一個嘗試,旨在以電子手段更容易地搜索到計算機(jī)研究論文。

“數(shù)字圖書館倡議”原本與互聯(lián)網(wǎng)無關(guān),它在1994年還沒有成為數(shù)字世界的重要力量。斯坦福政府原來的撥款提案甚至沒有提及互聯(lián)網(wǎng)。

但在1994年,網(wǎng)景通信公司推出了具有圖形界面的Web瀏覽器。接下來的一年里,整個世界突然有了一個存儲和共享一切信息的系統(tǒng),這使得“數(shù)字圖書館倡議”成為昨日黃花。也是在這一年,雅虎公司成立?!盎ヂ?lián)網(wǎng)完全改變了我們腳下的一切。”時任斯坦福大學(xué)計算機(jī)科學(xué)系主任的??送袪?加西亞 莫利納教授說。

每當(dāng)一種新技術(shù)出現(xiàn)時,很少有人真正懂得怎樣去恰當(dāng)運用。通常只有第二代公司才能取得實質(zhì)性進(jìn)展。對于搜索引擎而言,這確是事實。在整個20世紀(jì)90年代,搜索引擎先是根據(jù)某站點的特定關(guān)鍵詞的發(fā)現(xiàn)次數(shù)來檢索網(wǎng)頁。這些引擎并未利用互聯(lián)網(wǎng)的互聯(lián)特性,只是尋找站點、存儲信息。互聯(lián)網(wǎng)所要求的新技術(shù)尚不存在。是拉里締造了它。

當(dāng)谷歌的搜索引擎在1998年12月正式推出時,它在一個杰出特質(zhì)方面卓爾不群:它確實管用。

它的核心是PageRank系統(tǒng),這是由拉里(并以其名字命名)在攻讀博士期間發(fā)明的。它利用了網(wǎng)絡(luò)的獨特優(yōu)勢――與其名稱如此貼切的互聯(lián)網(wǎng)絡(luò)。

加西亞 莫利納回憶了公司起步階段的點點滴滴。他是佩奇的顧問,1995年的一天,他的學(xué)生走進(jìn)辦公室,給他看所發(fā)現(xiàn)的巧妙把戲。AltaVista搜索引擎不僅從各個站點收集關(guān)鍵詞,還能顯示出與其鏈接的其他網(wǎng)站。AltaVist并沒有以谷歌的方式利用這一鏈接信息,但那天在加西亞 莫利納的辦公室里,佩奇暗示這是一個排名網(wǎng)站重要程度的好辦法。

起先,這只是一個游戲?!拔覀兡翘旌荛_心,一直在看哪些計算機(jī)科學(xué)網(wǎng)頁在各個大學(xué)中最受歡迎?!奔游鱽啞∧{回憶道。他們高興地發(fā)現(xiàn),像斯坦福大學(xué)的數(shù)據(jù)庫小組就比對手威斯康星大學(xué)的類似部門吸引了更多鏈接。

拉里對于鏈接有自己的看法。他告訴加西亞 莫利納:“既然它對我們?nèi)绱酥匾?,為什么不把它作為搜索程序的一部分??/p>

拉里的想法是受其科學(xué)背景的啟發(fā)。眾所周知,在科學(xué)界,當(dāng)研究人員在自己的論文中引用你的論文時,就會提高你的論文的可信度。你被引用的次數(shù)越多,你的論文就越被科學(xué)界關(guān)注。這個想法體現(xiàn)在尤金.加菲爾德(Eugene Garfield)1960年創(chuàng)建的科學(xué)引文索引數(shù)據(jù)庫上,尤金是科學(xué)情報研究所的創(chuàng)始人。拉里推斷,網(wǎng)絡(luò)鏈接與科學(xué)引文相似,鏈接最多的引文,可能就是最受研究人員歡迎的引文,并將被證明最為有用。這些站點應(yīng)該在搜索結(jié)果中首先列出。然后他開始開發(fā)自己的軟件,用于分析站點之間的鏈接。

這需要一些棘手的程序。該系統(tǒng)不僅需要計算某個特定站點的鏈接次數(shù),還要進(jìn)一步確定所鏈接網(wǎng)站的重要性。這要通過計算對反向鏈接網(wǎng)站的鏈接數(shù)來實現(xiàn),從而大大增加了分析的復(fù)雜性。為了計算相關(guān)性,PageRank還必須反向追蹤兩步鏈接,并將數(shù)據(jù)與關(guān)鍵詞關(guān)聯(lián)。鑒于該系統(tǒng)反向追蹤鏈接的特性,拉里最初稱其為BackRub,但他后來將其命名為更復(fù)雜的PageRank,這是他姓氏的雙關(guān)語。

也是出于偶然,謝爾蓋開始了搜索引擎的研究。在斯坦福大學(xué)主修數(shù)學(xué)和計算機(jī)科學(xué)博士課程時,他在數(shù)據(jù)庫小組里致力于一個研究項目。1995年,他和布賴恩.蘭特試圖研究另一種被稱為“關(guān)聯(lián)數(shù)據(jù)挖掘”(associative data mining)的計算機(jī)科學(xué)方法。這個過程是用來尋找往往同時發(fā)生的信息片段。零售商用它來查詢其銷售記錄,并確定客戶是否經(jīng)常一并購買其他物品。不過,數(shù)據(jù)挖掘是計算機(jī)科學(xué)的一個新領(lǐng)域。它需要存儲大量的網(wǎng)絡(luò)數(shù)據(jù),所以謝爾蓋不得不寫了一個“爬蟲”(Crawler)程序――用來訪問網(wǎng)站、總結(jié)其內(nèi)容并在研究生和搜索公司可以訪問的中心位置存儲數(shù)據(jù)的軟件。其他搜索引擎已經(jīng)有了自己的爬蟲程序。

謝爾蓋是一個了不起的程序員和工程師。他的互聯(lián)網(wǎng)數(shù)據(jù)挖掘工作涉及對海量數(shù)據(jù)的解析?!八拇笫止P其他人根本不會去考慮?!敝x爾蓋的顧問杰弗里.烏爾曼(Jeffrey Ullman)說。(謝爾蓋關(guān)于谷歌搜索引擎概況的論文,被他自己在另一篇科學(xué)論文《服務(wù)質(zhì)量和電子報紙:Etel解決方案》中引用。)

謝爾蓋也是一個聰明的硬件工程師。他需要磁盤驅(qū)動器來存儲所收集的數(shù)據(jù),但是他資金不足,所以他買下了所能找到的最便宜的驅(qū)動器。但是當(dāng)他試用時,驅(qū)動器卻不夠快。謝爾蓋沒有將它們?nèi)拥簦窍氤隽艘粋€辦法,通過加倍驅(qū)動器接口的終端數(shù)量,總算使它們可以使用?!拔覐奈聪脒^這么做,”烏爾曼說,“這是一流的工程技術(shù)?!?/p>

1995年年底,拉里和謝爾蓋各自的項目使兩人走到了一起。“我和拉里聊了很多,”謝爾蓋回憶說,“我們相處得很愉快。”如果拉里要搜索網(wǎng)頁,他也需要一個爬蟲。所以他招募謝爾蓋參與數(shù)字圖書館項目,將他的搜索技術(shù)和謝爾蓋的網(wǎng)絡(luò)爬蟲結(jié)合起來。

這是一個偉大的結(jié)合?!爸x爾蓋喜歡數(shù)學(xué)方面的東西,”斯坦福大學(xué)教授安德烈亞斯.佩普基(Andreas Paepcke)說,他負(fù)責(zé)數(shù)字圖書館項目。“拉里只喜歡開發(fā)。這正好合乎成長之道?!?/p>

另一位與拉里和謝爾蓋共事的斯坦福大學(xué)研究生斯科特.哈桑回憶說,那個項目主要以拉里為主?!皩τ诶锒裕鞘撬钪匾氖虑?。謝爾蓋的參與只是因為感興趣。”他們常常工作到深夜,在供應(yīng)5美元“學(xué)生特餐”的帕羅奧多“新選擇”餐館編寫網(wǎng)頁索引,并進(jìn)行解析。他們經(jīng)常忙碌到凌晨5點。


上一章目錄下一章

Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號