以正確順序挑選出最好的幾個命中被稱為“排名”。排名是關鍵的第二個階段,緊隨最開始的匹配階段。在搜索行業(yè)的殘酷世界中,搜索引擎的生死由其排名系統(tǒng)的質(zhì)量決定。2002年,美國前三大搜索引擎的市場份額基本相當,谷歌、雅虎和MSN在美國的市場份額都在30%以下。[MSN隨后被重新包裝成Live Search,之后又被命名為必應(Bing)。]之后幾年,谷歌的市場份額迅速擴大,同時將雅虎和MSN的市場份額打壓到了20%以下。人們普遍認為,谷歌迅速上升為搜索行業(yè)冠軍是得益于其排名算法。因此,毫不夸張地說,搜索引擎的生死由其排名系統(tǒng)的質(zhì)量決定。不過,正如我已經(jīng)提到的,我們將在下一章探討排名算法。至于現(xiàn)在,讓我們專注于匹配階段吧。
AltaVista:第一個互聯(lián)網(wǎng)級別的匹配算法
搜索引擎匹配算法的故事從哪里開始?一個很顯然卻錯誤的回答會說從谷歌——21世紀初期最偉大的技術成功故事——開始。事實上,谷歌最初只是兩位斯坦福大學研究生的博士學位項目,這個故事不僅溫暖人心,而且令人印象深刻。拉里·佩奇(Larry Page)和謝爾蓋·布林(Sergey Brin)在1998年組裝了一堆計算機硬件來運行一種新的搜索引擎。不到10年,他們的公司成為了互聯(lián)網(wǎng)時代崛起的最偉大的數(shù)字巨人。
不過,互聯(lián)網(wǎng)搜索的想法已經(jīng)存在很多年了。最早的商業(yè)應用是Infoseek和Lycos(兩者都于1994年推出),以及于1995年推出搜索引擎的AltaVista。20世紀90年代中期的幾年中,AltaVista是搜索引擎的王者。當時我還是一名計算機科學研究生,我清楚地記得自己驚嘆于AltaVista搜索結果的成熟度。有史以來第一次,有一個搜索引擎能完全索引互聯(lián)網(wǎng)上每一個頁面的全部文本。更可貴的是,眨眼間就能返回結果。要繼續(xù)理解這個令人回味的技術突破,我們要從接觸一個古老的(毫不夸張)概念——索引——開始。
古老的索引
索引的概念是所有搜索引擎背后最基礎的思想。但索引并非由搜索引擎發(fā)明:事實上,索引的思想幾乎和書寫本身一樣古老。比如,人類學家發(fā)現(xiàn)了一座具有五千年歷史的巴比倫神廟圖書館,里面按學科對楔形文字泥版進行了分類。因此,索引可以稱得上是計算機科學中最古老的有用思想。
如今,“索引”這個詞通常指參考書最后的一個板塊。你可能想要查看的所有概念都以固定順序(通常是按字母排序)列出,每一個概念下都列出了這個概念出現(xiàn)的位置(通常是頁碼)。因此,一本和動物有關的書也許會有一個像“cheetah 124,156”的索引項。這個索引項意味著“cheetah”(獵豹)這個詞在第124頁和第156頁出現(xiàn)過。(讓你做個相當有趣的練習,你可以在本書的索引中查詢“index”這個詞。你應該可以找到這一頁。)