正文

搜索引擎索引——在世界上最大的草垛中尋針(6)

改變未來的九大算法 作者:(美)約翰·麥考密克


排名和鄰度

到目前為止,我們一直專注于匹配階段:為一個(gè)給出的查詢高效地找出所有命中的問題。不過正如之前強(qiáng)調(diào)的,第二個(gè)階段“排名”對(duì)于一個(gè)高質(zhì)量的搜索引擎是絕對(duì)必不可少的:這是挑選出前幾個(gè)命中并展示給用戶的階段。

讓我們更細(xì)致地來檢驗(yàn)排名的概念。一個(gè)網(wǎng)頁的“排名”究竟取決于什么?真正的問題不是“這個(gè)網(wǎng)頁和查詢匹配嗎”,而是“這個(gè)網(wǎng)頁和查詢相關(guān)嗎”。計(jì)算機(jī)科學(xué)家們使用“相關(guān)度”(relevance)這個(gè)術(shù)語來形容一個(gè)結(jié)果網(wǎng)頁和某個(gè)特定查詢有多么相配或多么有用。

舉個(gè)具體的例子,假設(shè)你對(duì)導(dǎo)致瘧疾的原因感興趣,并在一個(gè)搜索引擎中輸入查詢malaria cause(導(dǎo)致瘧疾)。簡(jiǎn)化考慮,假設(shè)搜索引擎對(duì)這一查詢只有兩個(gè)命中——下圖顯示的兩個(gè)網(wǎng)頁?,F(xiàn)在來看看這兩個(gè)網(wǎng)頁。作為人類,你很快就知道第1頁和瘧疾起因有關(guān),而第2頁似乎是對(duì)剛剛發(fā)生的一些軍事行動(dòng)的描述,只不過恰巧使用了“cause”和“malaria”這兩個(gè)詞。因此,和第2頁相比,第1頁無疑和查詢malaria cause更具相關(guān)性??捎?jì)算機(jī)不是人,讓計(jì)算機(jī)理解這兩頁的主題也很難,似乎不可能讓搜索引擎正確地對(duì)這兩個(gè)命中進(jìn)行排名。

不過,事實(shí)上,有一種很簡(jiǎn)單的方法讓這個(gè)例子中的排名正確。查詢?cè)~彼此相鄰的網(wǎng)頁比那些查詢?cè)~相距很遠(yuǎn)的網(wǎng)頁相關(guān)度更高。在瘧疾這個(gè)例子中,“malaria”和“cause”在第1頁中僅相距1個(gè)詞,而在第2頁中則相距17個(gè)詞。(記住,搜索引擎只通過查看索引項(xiàng)就能高效地發(fā)現(xiàn)這一點(diǎn),無須返回查看網(wǎng)頁。)因此,盡管計(jì)算機(jī)并不真正地“理解”查詢的主題,它也能猜測(cè)網(wǎng)頁1比網(wǎng)頁2更具相關(guān)性,因?yàn)榫W(wǎng)頁1查詢?cè)~之間的距離要比網(wǎng)頁2更近。

總而言之,盡管人們不經(jīng)常使用NEAR查詢,搜索引擎也在不斷地使用和鄰度有關(guān)的信息,提高搜索排名。而它們能高效地做到這點(diǎn)的原因則是,它們使用詞位置把戲。

一個(gè)網(wǎng)頁范例集,每個(gè)網(wǎng)頁都有一個(gè)標(biāo)題和一段正文。

我們已經(jīng)了解到,早在距今5 000年以前,巴比倫人就開始使用索引。而詞定位把戲也不是由搜索引擎發(fā)明的:這是互聯(lián)網(wǎng)出現(xiàn)以前,另一種信息檢索中用到的著名技術(shù)。不過,在下一部分,我們將了解一個(gè)看起來的確是由搜索引擎設(shè)計(jì)者發(fā)明的新把戲:元詞把戲(metaword trick)。對(duì)這一把戲和眾多相關(guān)思想的精巧運(yùn)用,使AltaVista搜索引擎在20世紀(jì)90年代晚期迅速成為搜索行業(yè)的領(lǐng)頭羊。


上一章目錄下一章

Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)