Scrapy網(wǎng)絡(luò)爬蟲(chóng)開(kāi)發(fā)實(shí)戰(zhàn)

定　價(jià)：￥69.80

作　者：	羅剛
出版社：	清華大學(xué)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購(gòu)買這本書(shū)可以去

當(dāng)當(dāng)網(wǎng) (￥66.30)

ISBN：	9787302658580	出版時(shí)間：	2024-05-01	包裝：	平裝-膠訂
開(kāi)本：	16開(kāi)	頁(yè)數(shù)：		字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　《Scrapy網(wǎng)絡(luò)爬蟲(chóng)開(kāi)發(fā)實(shí)戰(zhàn)》介紹如何學(xué)習(xí)和使用流行的Scrapy框架開(kāi)發(fā)網(wǎng)絡(luò)爬蟲(chóng)應(yīng)用，主要內(nèi)容使用Python開(kāi)發(fā)網(wǎng)絡(luò)爬蟲(chóng)，識(shí)別網(wǎng)頁(yè)的編碼，結(jié)構(gòu)化信息的提取，Scrapy爬蟲(chóng)的示例使用，Scrapy Playwright抓取動(dòng)態(tài)JS網(wǎng)站，將抓取的數(shù)據(jù)保存到數(shù)據(jù)庫(kù)，部署、調(diào)度和運(yùn)行Scrapy爬蟲(chóng)等?！禨crapy網(wǎng)絡(luò)爬蟲(chóng)開(kāi)發(fā)實(shí)戰(zhàn)》適合作為高等院校計(jì)算機(jī)、軟件工程專業(yè)本科生、研究生的參考書(shū)目，也適用于對(duì)Python網(wǎng)絡(luò)爬蟲(chóng)領(lǐng)域感興趣的人士參考閱讀。

作者簡(jiǎn)介

　　羅剛，2004年開(kāi)始創(chuàng)建獵兔搜索技術(shù)，10多年來(lái)一直從事搜索引擎、自然語(yǔ)言處理、圖像識(shí)別等技術(shù)的研發(fā)和團(tuán)隊(duì)管理工作。曾經(jīng)擔(dān)任新東方公司研究員，國(guó)防大學(xué)科研處技術(shù)顧問(wèn)，工信部輿情開(kāi)發(fā)顧問(wèn)，紅象云騰公司技術(shù)顧問(wèn)，青島大快搜索公司首席架構(gòu)師，中和云技術(shù)合伙人，東南大學(xué)社會(huì)導(dǎo)師，北京石油化工學(xué)院社會(huì)導(dǎo)師。近幾年同時(shí)開(kāi)展了學(xué)員就業(yè)培訓(xùn)工作，成功培訓(xùn)了50多位專業(yè)的軟件工程師，培養(yǎng)的工程師目前分布在百度、美團(tuán)、Nuance、云知聲、攝星等相關(guān)公司研發(fā)中心

圖書(shū)目錄

第1章?網(wǎng)絡(luò)爬蟲(chóng)快速入門
1.1　各種網(wǎng)絡(luò)爬蟲(chóng)
1.1.1　通用爬蟲(chóng)
1.1.2　定向爬蟲(chóng)
1.2　網(wǎng)絡(luò)爬蟲(chóng)基本技術(shù)
1.3　Windows命令行
1.4　上手Scrapy網(wǎng)絡(luò)爬蟲(chóng)開(kāi)發(fā)
1.5?本章小結(jié)
第2章?Python開(kāi)發(fā)快速入門
2.1?變量
2.2?注釋
2.3?簡(jiǎn)單數(shù)據(jù)類型
2.3.1?數(shù)值
2.3.2?字符串
2.3.3?數(shù)組
2.4?字面值
2.5?控制流
2.5.1?if語(yǔ)句
2.5.2?循環(huán)
2.6?列表
2.7?元組
2.8?集合
2.9?字典
2.10?函數(shù)
2.11?模塊
2.12?檢查字符串是否包含子字符串
2.13?面向?qū)ο缶幊?br />2.14?泛型
2.15?日志記錄
2.16?數(shù)據(jù)庫(kù)
2.17?本章小結(jié)
第3章?使用Python開(kāi)發(fā)網(wǎng)絡(luò)爬蟲(chóng)
3.1?使用BeautifulSoup實(shí)現(xiàn)定向采集
3.2?URL基礎(chǔ)
3.2.1?URI
3.2.2?解析相對(duì)地址
3.2.3?DNS解析
3.3?網(wǎng)絡(luò)爬蟲(chóng)抓取原理
3.4?爬蟲(chóng)架構(gòu)
3.4.1?基本架構(gòu)
3.4.2?分布式爬蟲(chóng)架構(gòu)
3.4.3?垂直爬蟲(chóng)架構(gòu)
3.5　下載網(wǎng)頁(yè)
3.5.1　HTTP
3.5.2?HTML文檔
3.5.3?使用curl命令下載網(wǎng)絡(luò)資源
3.5.4?使用wget命令下載網(wǎng)頁(yè)
3.5.5?下載靜態(tài)網(wǎng)頁(yè)
3.5.6?使用Selenium下載動(dòng)態(tài)內(nèi)容
3.5.7?重試
3.6?下載圖片
3.7?網(wǎng)絡(luò)爬蟲(chóng)的遍歷與實(shí)現(xiàn)
3.8　robots協(xié)議
3.9　連接池
3.10?URL地址查新
3.10.1?Redis數(shù)據(jù)庫(kù)
3.10.2?布隆過(guò)濾器
3.11?抓取RSS
3.12?網(wǎng)頁(yè)更新
3.13?進(jìn)度條
3.14?垂直行業(yè)抓取
3.15?抓取限制的應(yīng)對(duì)方法
3.15.1?模擬瀏覽器訪問(wèn)
3.15.2?使用代理IP
3.15.3?抓取需要登錄的網(wǎng)頁(yè)
3.16?保存信息
3.16.1?SQLite數(shù)據(jù)庫(kù)
3.16.2?MySQL數(shù)據(jù)庫(kù)
3.16.3?MongoDB數(shù)據(jù)庫(kù)
3.16.4?存入Elasticsearch搜索引擎
3.17?本章小結(jié)
第4章?從互聯(lián)網(wǎng)提取信息
4.1?識(shí)別網(wǎng)頁(yè)的編碼
4.1.1?二進(jìn)制流的編碼
4.1.2?識(shí)別編碼的整體流程
4.2?正則表達(dá)式
4.3?結(jié)構(gòu)化信息的提取
4.3.1?解析JSON
4.3.2?解析XML
4.3.3?XML接口
4.3.4?lxml處理網(wǎng)頁(yè)
4.3.5?使用XPath提取信息
4.3.6?在Chrome瀏覽器中查找Selenium WebDriver的XPath
4.3.7?CSS選擇器
4.3.8?使用Parsel
4.3.9?提取文本
4.3.10?網(wǎng)頁(yè)正文提取
4.4?從文件提取信息
4.5?本章小結(jié)
第5章?使用Scrapy開(kāi)發(fā)爬蟲(chóng)
5.1?一個(gè)示例爬蟲(chóng)的演練
5.2?Scrapy Playwright指南：渲染和抓取動(dòng)態(tài)JS網(wǎng)站
5.3?將抓取的數(shù)據(jù)保存到SQLite數(shù)據(jù)庫(kù)
5.4?將抓取的數(shù)據(jù)保存到MySQL數(shù)據(jù)庫(kù)
5.5?將抓取的數(shù)據(jù)保存到Postgres數(shù)據(jù)庫(kù)
5.6?Scrapyd：部署、調(diào)度和運(yùn)行Scrapy爬蟲(chóng)
5.7?Scrapy Cloud托管爬蟲(chóng)
5.8?Twisted框架
5.9?本章小結(jié)
第6章?分布式爬蟲(chóng)開(kāi)發(fā)
6.1?簡(jiǎn)單的Celery任務(wù)
6.2?從任務(wù)進(jìn)行分布式抓取
6.3?本章小結(jié)
第7章?開(kāi)發(fā)網(wǎng)絡(luò)爬蟲(chóng)用戶界面
7.1?Tkinter簡(jiǎn)介
7.2?網(wǎng)絡(luò)爬蟲(chóng)圖形用戶界面
7.3?本章小結(jié)
第8章?案例分析
8.1?影視采集器
8.2?暗網(wǎng)爬蟲(chóng)
8.3　本章小結(jié)