正文

開放與封閉(4)

星球Google 作者:(美)蘭德爾·斯特羅斯


克雷格·希爾弗斯坦(Craig Silverstein)是1998年被兩位創(chuàng)始人錄用的雇員,他后來說,如果公司的成立提前兩年,或者一年,都注定要失敗。1998年以前,Web一直都很小,小到任何搜索方法都足夠用,與網(wǎng)頁相匹配的網(wǎng)站單子短到完全可以很輕易地就掃描下來。但到1998年,Web一下子就多起來了,對(duì)搜索引擎的強(qiáng)烈需求也在這時(shí)候出現(xiàn),人們不單單希望它能與搜索詞語在文本上完全匹配,而且要求同所有包含該詞語的網(wǎng)頁都能匹配。希爾弗斯坦說,它還必須能“辨別出哪些結(jié)果是好的,哪些結(jié)果是不那么好的”。

谷歌公司之所以能夠提供搜索服務(wù),是因?yàn)樗锌梢赃M(jìn)入Web網(wǎng)頁的“蜘蛛”,這是一種能夠通過系統(tǒng)進(jìn)入Web的軟件,它將搜集后的Web網(wǎng)頁立即進(jìn)行檢索和分析,隨時(shí)準(zhǔn)備好當(dāng)有訪問者鍵入搜索要求時(shí)進(jìn)行匹配。(谷歌軟件之所以能有如此高的速度,乃是因?yàn)樗⒉皇窃谑盏剿阉髡?qǐng)求之后才臨時(shí)到全世界的網(wǎng)站上去檢索的,而是在此前就早已檢查了這些網(wǎng)站的網(wǎng)頁,并將它們收集起來,存儲(chǔ)在谷歌的服務(wù)器里。)在“蜘蛛”軟件還是以相當(dāng)簡(jiǎn)單的形式編寫成的時(shí)候(谷歌的最初版本就是如此),它會(huì)給爬過的網(wǎng)站帶來很多問題。在有些情況下,如在帶寬不足的時(shí)候,谷歌“蜘蛛”的到訪會(huì)讓網(wǎng)絡(luò)出現(xiàn)擁堵,使網(wǎng)站無法訪問。它還會(huì)將網(wǎng)站凍結(jié),拒絕所有的到訪者。這讓谷歌受到網(wǎng)站所有者的厭惡,他們中的有些人還曾經(jīng)給布林和佩奇發(fā)郵件或打電話,表達(dá)他們的憤怒和反感。

混亂狀態(tài)已經(jīng)過去了,內(nèi)置于谷歌“蜘蛛”中的代碼有了改進(jìn),使它縮短了在每個(gè)網(wǎng)站停留的時(shí)間,進(jìn)而降低了導(dǎo)致被訪系統(tǒng)崩潰的危險(xiǎn)性。與此同時(shí),網(wǎng)站的所有者也習(xí)慣了自動(dòng)化軟件程序的來訪,理解了“蜘蛛”的訪問反過來也可以將他們的網(wǎng)站帶到搜索引擎中,有助于吸引人前來造訪。

Web起初的設(shè)計(jì)者們一致同意,Web網(wǎng)站的所有者們能夠使用一段代碼提示“蜘蛛”或任何其他類型的“機(jī)器人”軟件的來訪都是不受歡迎的。谷歌應(yīng)該感到慶幸的是,在網(wǎng)站的所有者還未根據(jù)這一傾向阻止谷歌“蜘蛛”造訪之前,Web就已經(jīng)壯大起來了。谷歌的搜索結(jié)果的意義在于,它盡最大可能在網(wǎng)頁范圍內(nèi)進(jìn)行了廣泛的搜索。這些搜索結(jié)果為谷歌對(duì)相關(guān)內(nèi)容進(jìn)行排行提供了可靠的計(jì)算依據(jù),同時(shí)將它認(rèn)為最權(quán)威的網(wǎng)頁放在排行表的頂端。

為了評(píng)估任一具體網(wǎng)頁的權(quán)威性,谷歌的軟件必須在它所鏈接的所有網(wǎng)頁的數(shù)據(jù)庫(kù)中進(jìn)行查找,記下哪些網(wǎng)站同那個(gè)頁面有實(shí)質(zhì)性的鏈接,然后做出推薦。這只不過是剛剛開始。對(duì)要做出推薦的網(wǎng)站必須仔細(xì)檢查,以便決定這個(gè)推薦是加以重視還是歸為一般甚或完全忽略。軟件再回到鏈接的數(shù)據(jù)庫(kù),看看是誰推薦了哪些網(wǎng)站,那些網(wǎng)站是何時(shí)發(fā)現(xiàn)的,然后再去看看是誰推薦了那些網(wǎng)站……如此往復(fù)不已。這個(gè)過程是回溯性的、遞歸式循環(huán)的。檢查由誰指向誰可以看作一個(gè)無盡的過程,但是一連串的計(jì)算將萃取出Web網(wǎng)上的每一個(gè)網(wǎng)頁的相對(duì)權(quán)威性的精華,它是用從1到10的數(shù)字來表現(xiàn)的,表示某一網(wǎng)頁在其他網(wǎng)站的編輯看來其權(quán)威性如何,是否值得推薦給他人。谷歌將這個(gè)數(shù)字稱為網(wǎng)頁級(jí)別(PageRank,其中Page在形式上又是指拉里·佩奇(Larry Page),是他研發(fā)了最初的公式,但他的姓氏使得這個(gè)詞即使在其來源不為讀者所知時(shí)仍具有明確的意味)。PageRank不是第一個(gè)被用于Web結(jié)構(gòu)分析的系統(tǒng)――康奈爾大學(xué)的計(jì)算機(jī)科學(xué)家喬恩·克萊伯格于20世紀(jì)90年代中期在IBM的阿爾馬登研究中心的工作一般都被認(rèn)為是該領(lǐng)域的一個(gè)里程碑――但PageRank卻是第一個(gè)走出實(shí)驗(yàn)室的研究成果。


上一章目錄下一章

Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)