精通Scrapy網(wǎng)絡(luò)爬蟲

定　價：￥59.00

作　者：	劉碩
出版社：	清華大學出版社
叢編項：
標　簽：	計算機/網(wǎng)絡(luò) 行業(yè)軟件及應(yīng)用

購買這本書可以去

ISBN：	9787302484936	出版時間：	2017-10-01	包裝：	平裝-膠訂
開本：	16開	頁數(shù)：	224	字數(shù)：

內(nèi)容簡介

　　本書深入系統(tǒng)地介紹了Python流行框架Scrapy的相關(guān)技術(shù)及使用技巧。全書共14章，從邏輯上可分為基礎(chǔ)篇和高級篇兩部分，基礎(chǔ)篇重點介紹Scrapy的核心元素，如spider、selector、item、link等；高級篇講解爬蟲的高級話題，如登錄認證、文件下載、執(zhí)行JavaScript、動態(tài)網(wǎng)頁爬取、使用HTTP代理、分布式爬蟲的編寫等，并配合項目案例講解，包括供練習使用的網(wǎng)站，以及*、知乎、豆瓣、360爬蟲案例等。本書案例豐富，注重實踐，代碼注釋詳盡，適合有一定Python語言基礎(chǔ)，想學習編寫復雜網(wǎng)絡(luò)爬蟲的讀者使用。

作者簡介

　　劉碩：碩士，曾就職于知名外企，從事一線開發(fā)工作10年，目前主要從事Python開發(fā)與教學工作，在慕課網(wǎng)開設(shè)有多門Python課程，深受學員歡迎。

圖書目錄

第1章初識Scrapy 1

1.1 網(wǎng)絡(luò)爬蟲是什么 1

1.2 Scrapy簡介及安裝 2

1.3 編寫*個Scrapy爬蟲 3

1.3.1 項目需求 4

1.3.2 創(chuàng)建項目 4

1.3.3 分析頁面 5

1.3.4 實現(xiàn)Spider 6

1.3.5 運行爬蟲 8

1.4 本章小結(jié) 11

第2章編寫Spider 12

2.1 Scrapy框架結(jié)構(gòu)及工作原理 12

2.2 Request和Response對象 14

2.2.1 Request對象 15

2.2.2 Response對象 16

2.3 Spider開發(fā)流程 18

2.3.1 繼承scrapy.Spider 19

2.3.2 為Spider命名 20

2.3.3 設(shè)定起始爬取點 20

2.3.4 實現(xiàn)頁面解析函數(shù) 22

2.4 本章小結(jié) 22

第3章使用Selector提取數(shù)據(jù) 23

3.1 Selector對象 23

3.1.1 創(chuàng)建對象 24

3.1.2 選中數(shù)據(jù) 25

3.1.3 提取數(shù)據(jù) 26

3.2 Response內(nèi)置Selector 28

3.3 XPath 29

3.3.1 基礎(chǔ)語法 30

3.3.2 常用函數(shù) 35

3.4 CSS選擇器 36

3.5 本章小結(jié) 40

第4章使用Item封裝數(shù)據(jù) 41

4.1 Item和Field 42

4.2 拓展Item子類 44

4.3 Field元數(shù)據(jù) 44

4.4 本章小結(jié) 47

第5章使用Item Pipeline處理數(shù)據(jù) 48

5.1 Item Pipeline 48

5.1.1 實現(xiàn)Item Pipeline 49

5.1.2 啟用Item Pipeline 50

5.2 更多例子 51

5.2.1 過濾重復數(shù)據(jù) 51

5.2.2 將數(shù)據(jù)存入

MongoDB 54

5.3 本章小結(jié) 57

第6章使用LinkExtractor提取鏈接 58

6.1 使用LinkExtractor 59

6.2 描述提取規(guī)則 60

6.3 本章小結(jié) 65

第7章使用Exporter導出數(shù)據(jù) 66

7.1 指定如何導出數(shù)據(jù) 67

7.1.1 命令行參數(shù) 67

7.1.2 配置文件 69

7.2 添加導出數(shù)據(jù)格式 70

7.2.1 源碼參考 70

7.2.2 實現(xiàn)Exporter 72

7.3 本章小結(jié) 74

第8章項目練習 75

8.1 項目需求 77

8.2 頁面分析 77

8.3 編碼實現(xiàn) 83

8.4 本章小結(jié) 88

第9章下載文件和圖片 89

9.1 FilesPipeline和

ImagesPipeline 89

9.1.1 FilesPipeline使用

說明 90

9.1.2 ImagesPipeline使用

說明 91

9.2 項目實戰(zhàn)：爬取matplotlib

例子源碼文件 92

9.2.1 項目需求 92

9.2.2 頁面分析 94

9.2.3 編碼實現(xiàn) 96

9.3 項目實戰(zhàn)：下載360圖片 103

9.3.1 項目需求 104

9.3.2 頁面分析 104

9.3.3 編碼實現(xiàn) 107

9.4 本章小結(jié) 109

第10章模擬登錄 110

10.1 登錄實質(zhì) 110

10.2 Scrapy模擬登錄 114

10.2.1 使用FormRequest 114

10.2.2 實現(xiàn)登錄Spider 117

10.3 識別驗證碼 119

10.3.1 OCR識別 119

10.3.2 網(wǎng)絡(luò)平臺識別 123

10.3.3 人工識別 127

10.4 Cookie登錄 128

10.4.1 獲取瀏覽器

Cookie 128

10.4.2 CookiesMiddleware

源碼分析 129

10.4.3 實現(xiàn)BrowserCookies-

Middleware 132

10.4.4 爬取知乎個人

信息 133

10.5 本章小結(jié) 135

第11章爬取動態(tài)頁面 136

11.1 Splash渲染引擎 140

11.1.1 render.html端點 141

11.1.2 execute端點 142

11.2 在Scrapy中使用Splash 145

11.3 項目實戰(zhàn)：爬取toscrape

中的名人名言 146

11.3.1 項目需求 146

11.3.2 頁面分析 146

11.3.3 編碼實現(xiàn) 147

11.4 項目實戰(zhàn)：爬取*商城

中的書籍信息 149

11.4.1 項目需求 149

11.4.2 頁面分析 149

11.4.3 編碼實現(xiàn) 152

11.5 本章小結(jié) 154

第12章存入數(shù)據(jù)庫 155

12.1 SQLite 156

12.2 MySQL 159

12.3 MongoDB 165

12.4 Redis 169

12.5 本章小結(jié) 173

第13章使用HTTP代理 174

13.1 HttpProxyMiddleware 175

13.1.1 使用簡介 175

13.1.2 源碼分析 177

13.2 使用多個代理 179

13.3 獲取免費代理 180

13.4 實現(xiàn)*代理 184

13.5 項目實戰(zhàn)：爬取豆瓣電影

信息 187

13.5.1 項目需求 188

13.5.2 頁面分析 189

13.5.3 編碼實現(xiàn) 194

13.6 本章小結(jié) 198

第14章分布式爬取 199

14.1 Redis的使用 200

14.1.1 安裝Redis 200

14.1.2 Redis基本命令 201

14.2 scrapy-redis源碼分析 206

14.2.1 分配爬取任務(wù)

部分 207

14.2.2 匯總爬取數(shù)據(jù)

部分 214

14.3 使用scrapy-redis進行分

布式爬取 217

14.3.1 搭建環(huán)境 217

14.3.2 項目實戰(zhàn) 218

14.4 本章小結(jié) 224

精通Scrapy網(wǎng)絡(luò)爬蟲

購買這本書可以去

內(nèi)容簡介

作者簡介

圖書目錄

本目錄推薦

MATLAB科學計算從入門到精通

工業(yè)軟件的計算技術(shù)及構(gòu)造實踐

互聯(lián)網(wǎng)金融理論與實務(wù)

空間信息技術(shù)常用數(shù)值分析及VC+…

用友ERP-U8財務(wù)系統(tǒng)標準教程（V…

視頻新媒體技術(shù)與應(yīng)用

MATLAB數(shù)學建模方法與實踐（第4…

MATLAB數(shù)值計算（中譯本·2…

信息化幼教：數(shù)字化教育技術(shù)應(yīng)用…

Adams 2024虛擬樣機從入門到精…