盡管大多數(shù)搜索引擎都遵從這個通用模式,然而沒有哪兩個搜索引擎的運(yùn)作模式完全相同。在不同的搜索引擎上使用同樣的條件進(jìn)行搜索,得到的結(jié)果不盡相同,原因就在這里。
Google公司的PageRank好(網(wǎng)頁等級)算法是Google搜索區(qū)別于其他搜索引擎的重要一點。Google公司的共同創(chuàng)始人拉里·佩奇和謝爾蓋·布林(Sergey Brin)認(rèn)識的時候,兩人都是斯坦福大學(xué)研究生。他們有一個課程設(shè)計項目,要尋找一種從大量數(shù)據(jù)中獲取有價值信息的途徑。正是這個項目導(dǎo)致了PageRank算法的開發(fā)。
PageRank算法根據(jù)特定網(wǎng)頁的相似度判定其“好壞”,這種方式跟我們通常判定別人的方式一樣。例如,你在大街上偶然遇到一個陌生人,這個人莫名其妙地給你解釋什么是搜索,你大概不會當(dāng)真。為什么要當(dāng)真呢?他是個陌生人啊。你不知道他說的是不是合情合理。
然而,你卻買了這本書,而且看到了這一章。很有可能,你相信我可以在計算機(jī)搜索方面說出些門道。為什么你容易相信我,而不是相信街上遇到的那個陌生人呢?這在很大程度上是因為假如我對自己談?wù)摰闹黝}一無所知,那么出版社是不會給我出版這本書的。(對吧?)換言之,你之所以相信我,是因為你信任的出版社信任我。
PageRank算法本質(zhì)上就是采用同樣的工作機(jī)理。這個算法不是去詢問它所信任的人,而是要看網(wǎng)頁是否鏈接到它的排序頁面上。它更“信任”那些大量相關(guān)網(wǎng)頁鏈接所指向的頁面。換句話說,如果很多相關(guān)網(wǎng)頁鏈接到某個頁面上,那這個頁面必定會有值得其他網(wǎng)頁鏈接的理由,這個頁面大概就是“好的”。同樣,這個頁面在PageRank排序中會有一個更高的等級,序列等級的提高有助于該頁面在Google搜索結(jié)果排序位置的前移。
順便說一句,你可能會以為PageRank源于Web page(網(wǎng)頁)。不過,你錯了。這是一個雙關(guān)語,佩奇(Larry Page)是用自己的名字給這個算法命名的。
對搜索結(jié)果進(jìn)行精確排序是件難事,這首先是因為我們使用的語言十分復(fù)雜。例如,假如我只是告訴你我要去bank(銀行或河邊),你能確定我是要去取錢嗎?或許你還以為要到河邊溜達(dá)呢?
與此類似,如果你在計算機(jī)上搜索apples(蘋果),搜索引擎怎么能知道你要找的是一種水果還是一個公司呢?Google搜索算法以從億萬條過去的搜索結(jié)果中匯總提取的龐大數(shù)據(jù)為基礎(chǔ),形成有根據(jù)的猜測。如果像剛才所說的那樣,你在Google搜索框中輸入apples這個單詞,Google搜索通常會猜想你要搜索有關(guān)水果的信息。Google搜索也會作好兩手準(zhǔn)備,排在前面的搜索結(jié)果有水果信息,同時也會有蘋果公司的信息。然而,如果你輸入的是單數(shù)形式的apple,那么你搜索蘋果公司的可能性就會顯著加大。在這種情況下,排在前面的搜索結(jié)果當(dāng)中,跟蘋果公司有關(guān)的信息就會占有壓倒性的多數(shù)。如此一來,Google會依據(jù)搜索條件中是否含有復(fù)數(shù)標(biāo)志s給出不同的排位結(jié)果。對于其他的搜索內(nèi)容,問題可能會更加復(fù)雜。Google公司及其競爭對手之所以聘請數(shù)以百計的工程師,鍥而不舍地調(diào)整它們的搜索引擎,以便提供相關(guān)度最高的搜索結(jié)果,原因就在于此。
獲取相關(guān)度最高的搜索結(jié)果