3.1 機(jī)器人輸送
下面開始學(xué)習(xí)搜索引擎的工作原理。搜索引擎的一個(gè)主要部件是一種叫做“機(jī)器人(robot)或蜘蛛(spider)”的軟件,它從各個(gè)站點(diǎn)提取有關(guān)您的網(wǎng)站的信息,然后將這些內(nèi)容傳回到強(qiáng)大的中心“引擎”進(jìn)行分析。這種行為稱為“爬網(wǎng)”(crawling或者spidering)。關(guān)于機(jī)器人的工作原理有很多比喻,其中最恰當(dāng)?shù)囊环N比喻是螞蟻??梢詫⑺阉饕鏅C(jī)器人看做探路的螞蟻,它離開蟻穴只是為了尋找食物。而就機(jī)器人而言,“食物”就是HTML文本,因?yàn)榭赡苡泻芏辔谋镜却l(fā)現(xiàn),所以螞蟻必須沿著簡(jiǎn)單、沒有障礙的路徑(即HTML鏈接)前進(jìn)。沿著這些路徑,僅具有像昆蟲那樣簡(jiǎn)單思維能力的螞蟻(搜索引擎機(jī)器人)就可以將食物(文本內(nèi)容)帶回蟻穴,并將其存放在蟻丘(搜索引擎數(shù)據(jù)庫(kù))中。整個(gè)Internet上有成千上萬只“小家伙”在同時(shí)進(jìn)行探索和收集工作,如圖3-1所示。如果路徑不存在或者被阻塞,螞蟻將放棄這條路徑并前往別處。如果沒有食物,則螞蟻將會(huì)空手而歸。