正文

搜索引擎索引——在世界上最大的草垛中尋針(9)

改變未來的九大算法 作者:(美)約翰·麥考密克


元詞把戲能讓搜索引擎以極端高效的方式回應有關一個文件結(jié)構的查詢。上面的例子只是搜索頁面標題內(nèi),但類似的技術能讓用戶搜索超鏈接、圖片描述和網(wǎng)頁其他有用部分內(nèi)的詞。而且所有這類查詢都可以像上面的例子一樣得到高效回應。正如我們之前討論過的查詢,搜索引擎無須返回查看原始網(wǎng)頁:搜索引擎只需查閱小部分索引項,就能回應查詢。同樣重要的是,搜索引擎只需遍歷每個索引項一次。還記得我們在完成處理第2頁的首個命中后,轉(zhuǎn)向第3頁的可能命中時發(fā)生了什么嗎?搜索引擎并沒有返回索引項<titleStart>和<titleEnd>的開端,而是從之前離開的地方繼續(xù)進行掃描。這也是讓IN查詢高效的關鍵因素。

標題查詢和其他取決于網(wǎng)頁結(jié)構的“結(jié)構查詢”類似于之前討論的NEAR查詢,雖然人們極少執(zhí)行結(jié)構查詢,但搜索引擎無時無刻不在內(nèi)部使用它們。原因之前提過:搜索引擎的生死由其排名的質(zhì)量決定,而通過利用網(wǎng)頁結(jié)構,排名質(zhì)量能夠得到大幅提升。比如,標題中有“dog”的網(wǎng)頁包含與狗有關信息的可能性,要比在網(wǎng)頁正文中提及“dog”的網(wǎng)頁大得多。因此,當一名用戶輸入簡單的查詢dog,搜索引擎能在內(nèi)部執(zhí)行一個dog IN TITLE查詢(即便用戶并未詳細地要求這一點),以尋找最有可能與狗有關的網(wǎng)頁,而非只是恰好提到狗的網(wǎng)頁。

索引和匹配把戲并非是全部內(nèi)容

搭建一個搜索引擎并不是一件容易的事情。最終成品就像一個巨大的復雜機器,帶有許多不同的輪子、發(fā)動機和杠桿。這些裝置都必須安裝正確,系統(tǒng)才能有用。因此,單靠在本章中出現(xiàn)的兩個把戲并不能解決創(chuàng)建一個高效搜索引擎索引的問題,意識到這一點很重要。不過,詞位置把戲和元詞把戲無疑展現(xiàn)了真正的搜索引擎構建和使用索引的“風味”。

元詞把戲的確幫助過AltaVista——其他搜索引擎則失敗了——成功地在整個互聯(lián)網(wǎng)中尋找有效匹配。我們之所以知道這一點,是因為AltaVista在1999年遞交的美國專利文件《索引的限制搜索》(Constrained Searching of an Index)中描述了元詞把戲。不過,AltaVista超級精巧的匹配算法并不足以讓其從搜索行業(yè)波濤洶涌的早期脫穎而出。正如我們已經(jīng)知道的,有效匹配只是一個高效搜索引擎的一半,另一大挑戰(zhàn)是對匹配網(wǎng)頁進行排名。正如我們將在下一章中看到的,一種新排名算法的出現(xiàn)足以讓AltaVista相形見絀,并讓谷歌一躍進入網(wǎng)絡搜索世界的最前沿。


上一章目錄下一章

Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號