TrustRank是近年來比較受關(guān)注的基于鏈接關(guān)系的排名算法。TrustRank可以翻譯為“信任指數(shù)”。
TrustRank算法最初來自于2004年斯坦福大學(xué)和雅虎的一項(xiàng)聯(lián)合研究,用來檢測垃圾網(wǎng)站,并且于2006年申請專利。TrustRank算法發(fā)明人還發(fā)表了一份專門的PDF文件,說明TrustRank算法的應(yīng)用。感興趣的讀者可以在下面這個網(wǎng)址下載PDF文件:
https://www.vldb.org/conf/2004/RS15P3.PDF
TrustRank算法并不是由Google提出的,不過由于Google所占市場份額最大,而且TrustRank在Google排名中也是一個非常重要的因素,所以有些人誤以為TrustRank是Google提出的。更讓人糊涂的是,Google曾經(jīng)把TrustRank申請為商標(biāo),但是TrustRank商標(biāo)中的TrustRank指的是Google檢測含有惡意代碼網(wǎng)站的方法,而不是指排名算法中的信任指數(shù)。
TrustRank算法基于一個基本假設(shè):好的網(wǎng)站很少會鏈接到壞的網(wǎng)站。反之則不成立,也就是說,壞的網(wǎng)站很少鏈接到好網(wǎng)站這句話并不成立。正相反,很多垃圾網(wǎng)站會鏈接到高權(quán)威、高信任指數(shù)的網(wǎng)站,試圖提高自己的信任指數(shù)。
基于這個假設(shè),如果能挑選出可以百分之百信任的網(wǎng)站,這些網(wǎng)站的TrustRank評為最高,這些TrustRank最高的網(wǎng)站所鏈接到的網(wǎng)站信任指數(shù)稍微降低,但也會很高。與此類似,第二層被信任的網(wǎng)站鏈接出去的第三層網(wǎng)站,信任度繼續(xù)下降。由于種種原因,好的網(wǎng)站也不可避免地會鏈接到一些垃圾網(wǎng)站,不過離第一層網(wǎng)站點(diǎn)擊距離越近,所傳遞的信任指數(shù)越高,離第一級網(wǎng)站點(diǎn)擊距離就越遠(yuǎn),信任指數(shù)將依次下降。這樣,通過TrustRank算法,就能給所有網(wǎng)站計算出相應(yīng)的信任指數(shù),離第一層網(wǎng)站越遠(yuǎn),成為垃圾網(wǎng)站的可能性就越大。
計算TrustRank值首先要選擇一批種子網(wǎng)站,然后人工查看網(wǎng)站,設(shè)定一個初始TrustRank值。挑選種子網(wǎng)站有兩種方式,一種是選擇導(dǎo)出鏈接最多的網(wǎng)站,因?yàn)門rustRank算法就是計算指數(shù)隨著導(dǎo)出鏈接的衰減。導(dǎo)出鏈接多的網(wǎng)站,在某種意義上可以理解為“逆向PR值”比較高。
另一種挑選種子網(wǎng)站的方法是選PR值高的網(wǎng)站,因?yàn)镻R值越高,在搜索結(jié)果頁面出現(xiàn)的概率就越大。這些網(wǎng)站才正是TrustRank算法最關(guān)注的、需要調(diào)整排名的網(wǎng)站。那些PR值很低的頁面,在沒有TrustRank算法時排名也很靠后,計算TrustRank意義就不大了。
根據(jù)測算,挑選出兩百個左右網(wǎng)站作為種子,就可以比較精確地計算出所有網(wǎng)站的TrustRank值。
計算TrustRank隨鏈接關(guān)系減少的公式有兩種方式。一種是隨鏈接次數(shù)衰減,也就是說如果第一層頁面TrustRank指數(shù)是100,第二層頁面衰減為90,第三層衰減為80。第二種計算方法是按導(dǎo)出鏈接數(shù)目分配TrustRank值,也就是說,如果一個頁面的TrustRank值是100,頁面上有5個導(dǎo)出鏈接,每個鏈接將傳遞20%的TrustRank值。衰減和分配這兩種計算方法通常綜合使用,整體效果都是隨著鏈接層次的增加,TrustRank值逐步降低。
得出網(wǎng)站和頁面的TrustRank值后,可以通過兩種方式影響排名。一種是把傳統(tǒng)排名算法挑選出的多個頁面,根據(jù)TrustRank值比較,重新做排名調(diào)整。另一種是設(shè)定一個最低的TrustRank值門檻,只有超過這個門檻的頁面,才被認(rèn)為有足夠的質(zhì)量進(jìn)入排名,低于門檻的頁面將被認(rèn)為是垃圾頁面,從搜索結(jié)果中過濾出去。
雖然TrustRank算法最初是作為檢測垃圾的方法,但在現(xiàn)在的搜索引擎排名算法中,TrustRank概念使用更為廣泛,常常影響大部分網(wǎng)站的整體排名。TrustRank算法最初針對的是頁面級別,現(xiàn)在在搜索引擎算法中,TrustRank值也通常表現(xiàn)在域名級別,整個域名的信任指數(shù)越高,整體排名能力就越強(qiáng)。