正文

爬行和抓取

SEO實戰(zhàn)密碼:60天網(wǎng)站流量提高20倍 作者:昝輝


搜索引擎用來爬行和訪問頁面的程序被稱為蜘蛛(spider),也稱為機器人(bot)。

搜索引擎蜘蛛訪問網(wǎng)站頁面時類似于普通用戶使用的瀏覽器。蜘蛛程序發(fā)出頁面訪問請求后,服務器返回HTML代碼,蜘蛛程序把收到的代碼存入原始頁面數(shù)據(jù)庫。搜索引擎為了提高爬行和抓取速度,都使用多個蜘蛛并發(fā)分布爬行。

蜘蛛訪問任何一個網(wǎng)站時,都會先訪問網(wǎng)站根目錄下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目錄,蜘蛛將遵守協(xié)議,不抓取被禁止的網(wǎng)址。

和瀏覽器一樣,搜索引擎蜘蛛也有標明自己身份的代理名稱,站長可以在日志文件中看到搜索引擎的特定代理名稱,從而辨識搜索引擎蜘蛛。


上一章目錄下一章

Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號