搜索引擎用來(lái)爬行和訪問(wèn)頁(yè)面的程序被稱為蜘蛛(spider),也稱為機(jī)器人(bot)。
搜索引擎蜘蛛訪問(wèn)網(wǎng)站頁(yè)面時(shí)類似于普通用戶使用的瀏覽器。蜘蛛程序發(fā)出頁(yè)面訪問(wèn)請(qǐng)求后,服務(wù)器返回HTML代碼,蜘蛛程序把收到的代碼存入原始頁(yè)面數(shù)據(jù)庫(kù)。搜索引擎為了提高爬行和抓取速度,都使用多個(gè)蜘蛛并發(fā)分布爬行。
蜘蛛訪問(wèn)任何一個(gè)網(wǎng)站時(shí),都會(huì)先訪問(wèn)網(wǎng)站根目錄下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目錄,蜘蛛將遵守協(xié)議,不抓取被禁止的網(wǎng)址。
和瀏覽器一樣,搜索引擎蜘蛛也有標(biāo)明自己身份的代理名稱,站長(zhǎng)可以在日志文件中看到搜索引擎的特定代理名稱,從而辨識(shí)搜索引擎蜘蛛。