定 價(jià):¥59.00
作 者: | 劉碩 |
出版社: | 清華大學(xué)出版社 |
叢編項(xiàng): | |
標(biāo) 簽: | 計(jì)算機(jī)/網(wǎng)絡(luò) 行業(yè)軟件及應(yīng)用 |
ISBN: | 9787302484936 | 出版時(shí)間: | 2017-10-01 | 包裝: | 平裝-膠訂 |
開本: | 16開 | 頁數(shù): | 224 | 字?jǐn)?shù): |
第1章 初識(shí)Scrapy 1
1.1 網(wǎng)絡(luò)爬蟲是什么 1
1.2 Scrapy簡(jiǎn)介及安裝 2
1.3 編寫*個(gè)Scrapy爬蟲 3
1.3.1 項(xiàng)目需求 4
1.3.2 創(chuàng)建項(xiàng)目 4
1.3.3 分析頁面 5
1.3.4 實(shí)現(xiàn)Spider 6
1.3.5 運(yùn)行爬蟲 8
1.4 本章小結(jié) 11
第2章 編寫Spider 12
2.1 Scrapy框架結(jié)構(gòu)及工作原理 12
2.2 Request和Response對(duì)象 14
2.2.1 Request對(duì)象 15
2.2.2 Response對(duì)象 16
2.3 Spider開發(fā)流程 18
2.3.1 繼承scrapy.Spider 19
2.3.2 為Spider命名 20
2.3.3 設(shè)定起始爬取點(diǎn) 20
2.3.4 實(shí)現(xiàn)頁面解析函數(shù) 22
2.4 本章小結(jié) 22
第3章 使用Selector提取數(shù)據(jù) 23
3.1 Selector對(duì)象 23
3.1.1 創(chuàng)建對(duì)象 24
3.1.2 選中數(shù)據(jù) 25
3.1.3 提取數(shù)據(jù) 26
3.2 Response內(nèi)置Selector 28
3.3 XPath 29
3.3.1 基礎(chǔ)語法 30
3.3.2 常用函數(shù) 35
3.4 CSS選擇器 36
3.5 本章小結(jié) 40
第4章 使用Item封裝數(shù)據(jù) 41
4.1 Item和Field 42
4.2 拓展Item子類 44
4.3 Field元數(shù)據(jù) 44
4.4 本章小結(jié) 47
第5章 使用Item Pipeline處理數(shù)據(jù) 48
5.1 Item Pipeline 48
5.1.1 實(shí)現(xiàn)Item Pipeline 49
5.1.2 啟用Item Pipeline 50
5.2 更多例子 51
5.2.1 過濾重復(fù)數(shù)據(jù) 51
5.2.2 將數(shù)據(jù)存入
MongoDB 54
5.3 本章小結(jié) 57
第6章 使用LinkExtractor提取鏈接 58
6.1 使用LinkExtractor 59
6.2 描述提取規(guī)則 60
6.3 本章小結(jié) 65
第7章 使用Exporter導(dǎo)出數(shù)據(jù) 66
7.1 指定如何導(dǎo)出數(shù)據(jù) 67
7.1.1 命令行參數(shù) 67
7.1.2 配置文件 69
7.2 添加導(dǎo)出數(shù)據(jù)格式 70
7.2.1 源碼參考 70
7.2.2 實(shí)現(xiàn)Exporter 72
7.3 本章小結(jié) 74
第8章 項(xiàng)目練習(xí) 75
8.1 項(xiàng)目需求 77
8.2 頁面分析 77
8.3 編碼實(shí)現(xiàn) 83
8.4 本章小結(jié) 88
第9章 下載文件和圖片 89
9.1 FilesPipeline和
ImagesPipeline 89
9.1.1 FilesPipeline使用
說明 90
9.1.2 ImagesPipeline使用
說明 91
9.2 項(xiàng)目實(shí)戰(zhàn):爬取matplotlib
例子源碼文件 92
9.2.1 項(xiàng)目需求 92
9.2.2 頁面分析 94
9.2.3 編碼實(shí)現(xiàn) 96
9.3 項(xiàng)目實(shí)戰(zhàn):下載360圖片 103
9.3.1 項(xiàng)目需求 104
9.3.2 頁面分析 104
9.3.3 編碼實(shí)現(xiàn) 107
9.4 本章小結(jié) 109
第10章 模擬登錄 110
10.1 登錄實(shí)質(zhì) 110
10.2 Scrapy模擬登錄 114
10.2.1 使用FormRequest 114
10.2.2 實(shí)現(xiàn)登錄Spider 117
10.3 識(shí)別驗(yàn)證碼 119
10.3.1 OCR識(shí)別 119
10.3.2 網(wǎng)絡(luò)平臺(tái)識(shí)別 123
10.3.3 人工識(shí)別 127
10.4 Cookie登錄 128
10.4.1 獲取瀏覽器
Cookie 128
10.4.2 CookiesMiddleware
源碼分析 129
10.4.3 實(shí)現(xiàn)BrowserCookies-
Middleware 132
10.4.4 爬取知乎個(gè)人
信息 133
10.5 本章小結(jié) 135
第11章 爬取動(dòng)態(tài)頁面 136
11.1 Splash渲染引擎 140
11.1.1 render.html端點(diǎn) 141
11.1.2 execute端點(diǎn) 142
11.2 在Scrapy中使用Splash 145
11.3 項(xiàng)目實(shí)戰(zhàn):爬取toscrape
中的名人名言 146
11.3.1 項(xiàng)目需求 146
11.3.2 頁面分析 146
11.3.3 編碼實(shí)現(xiàn) 147
11.4 項(xiàng)目實(shí)戰(zhàn):爬取*商城
中的書籍信息 149
11.4.1 項(xiàng)目需求 149
11.4.2 頁面分析 149
11.4.3 編碼實(shí)現(xiàn) 152
11.5 本章小結(jié) 154
第12章 存入數(shù)據(jù)庫 155
12.1 SQLite 156
12.2 MySQL 159
12.3 MongoDB 165
12.4 Redis 169
12.5 本章小結(jié) 173
第13章 使用HTTP代理 174
13.1 HttpProxyMiddleware 175
13.1.1 使用簡(jiǎn)介 175
13.1.2 源碼分析 177
13.2 使用多個(gè)代理 179
13.3 獲取免費(fèi)代理 180
13.4 實(shí)現(xiàn)*代理 184
13.5 項(xiàng)目實(shí)戰(zhàn):爬取豆瓣電影
信息 187
13.5.1 項(xiàng)目需求 188
13.5.2 頁面分析 189
13.5.3 編碼實(shí)現(xiàn) 194
13.6 本章小結(jié) 198
第14章 分布式爬取 199
14.1 Redis的使用 200
14.1.1 安裝Redis 200
14.1.2 Redis基本命令 201
14.2 scrapy-redis源碼分析 206
14.2.1 分配爬取任務(wù)
部分 207
14.2.2 匯總爬取數(shù)據(jù)
部分 214
14.3 使用scrapy-redis進(jìn)行分
布式爬取 217
14.3.1 搭建環(huán)境 217
14.3.2 項(xiàng)目實(shí)戰(zhàn) 218
14.4 本章小結(jié) 224