注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)Scrapy網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)

Scrapy網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)

Scrapy網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)

定 價(jià):¥59.00

作 者: 東郭大貓 著
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787302536208 出版時(shí)間: 2019-09-01 包裝: 平裝
開本: 16 頁數(shù): 242 字?jǐn)?shù):  

內(nèi)容簡介

  隨著大數(shù)據(jù)分析、大數(shù)據(jù)計(jì)算火熱興起,越來越多的企業(yè)發(fā)布了數(shù)據(jù)分析崗位,而數(shù)據(jù)分析的基礎(chǔ)則是海量的數(shù)據(jù)。Python中的Scrapy框架就是為了抓取數(shù)據(jù)而設(shè)計(jì)的。本書是一本Scrapy爬蟲框架零基礎(chǔ)起步的實(shí)戰(zhàn)圖書。 本書共分11章,第1~2章介紹Python環(huán)境的搭建、編輯器的使用、爬蟲的一些基礎(chǔ)知識(urllib、requests、Selenium、Xpath、CSS、正則表達(dá)式、BeautifulSoup庫)等。第3~8章主要介紹Scrapy框架的原理與使用。第9~11章主要介紹Scrapy的優(yōu)化,包括內(nèi)置服務(wù)、組件優(yōu)化等,最后通過一個(gè)完整的大型示例對全書的知識點(diǎn)做了應(yīng)用總結(jié)。 本書入門門檻低、淺顯易懂,適合所有Scrapy爬蟲和數(shù)據(jù)分析行業(yè)的入門讀者學(xué)習(xí),也適合高等院校和培訓(xùn)學(xué)校作為爬蟲入門教材和訓(xùn)練手冊。

作者簡介

  東郭大貓,常年從事數(shù)據(jù)相關(guān)的工作,擅長用Python進(jìn)行數(shù)據(jù)的爬取、分析和存儲。使用Python超過5年,做過公司內(nèi)部的數(shù)據(jù)爬取培訓(xùn)。

圖書目錄

目    錄
第1章  Python開發(fā)環(huán)境的搭建 1
1.1  PYTHON SDK安裝 1
1.1.1  在Windows上安裝Python 1
1.1.2  在Ubuntu上安裝Python 2
1.2  安裝開發(fā)工具PYCHARM社區(qū)版 3
1.3  安裝開發(fā)工具VISUAL STUDIO社區(qū)版 5
第2章  爬蟲基礎(chǔ)知識 6
2.1  爬蟲原理 6
2.1.1  爬蟲運(yùn)行基本流程 6
2.1.2  HTTP請求過程 8
2.2  網(wǎng)頁分析方法1:瀏覽器開發(fā)人員工具 9
2.2.1  Elements面板 10
2.2.2  Network面板 11
2.3  網(wǎng)頁分析方法2:XPATH語法 14
2.3.1  XPath節(jié)點(diǎn) 14
2.3.2  XPath語法 15
2.3.3  XPath軸 17
2.3.4  XPath運(yùn)算符 19
2.4  網(wǎng)頁分析方法3:CSS選擇語法 19
2.4.1  元素選擇器 20
2.4.2  類選擇器 21
2.4.3  ID選擇器 21
2.4.4  屬性選擇器 21
2.4.5  后代選擇器 21
2.4.6  子元素選擇器 22
2.4.7  相鄰兄弟選擇器 22
2.5  網(wǎng)頁分析方法4:正則表達(dá)式 22
2.5.1  提取指定字符 23
2.5.2  預(yù)定義字符集 23
2.5.3  數(shù)量限定 23
2.5.4  分支匹配 24
2.5.5  分組 24
2.5.6  零寬斷言 24
2.5.7  貪婪模式與非貪婪模式 25
2.5.8  Python中的正則表達(dá)式 25
2.6  爬蟲常用類庫1:PYTHON中的HTTP基本庫URLLIB 30
2.6.1  發(fā)送請求 30
2.6.2  使用Cookie 31
2.7  爬蟲常用類庫2:更人性化的第三方庫REQUESTS 33
2.7.1  發(fā)送請求 34
2.7.2  請求頭 35
2.7.3  響應(yīng)內(nèi)容 35
2.7.4  響應(yīng)狀態(tài)碼 36
2.7.5  cookies參數(shù) 37
2.7.6  重定向與請求歷史 37
2.7.7  超時(shí) 38
2.7.8  設(shè)置代理 38
2.7.9  會話對象 38
2.8  爬蟲常用類庫3:元素提取利器BEAUTIFULSOUP 39
2.8.1  安裝BeautifulSoup 39
2.8.2  安裝解析器 40
2.8.3  BeautifulSoup使用方法 41
2.8.4  BeautifulSoup對象 43
2.8.5  遍歷文檔樹 47
2.8.6  搜索文檔樹 52
2.8.7  BeautifulSoup中的CSS選擇器 57
2.9  爬蟲常用類庫4:SELENIUM操縱瀏覽器 58
2.9.1  安裝Selenium 59
2.9.2  Selenium的基本使用方法 59
2.9.3  Selenium Webdriver的原理 61
2.9.4  Selenium中的元素定位方法 61
2.9.5  Selenium Webdriver基本操作 63
2.9.6  Selenium實(shí)戰(zhàn):抓取拉鉤網(wǎng)招聘信息 64
2.10  爬蟲常用類庫5:SCRAPY爬蟲框架 67
2.10.1  安裝Scrapy 67
2.10.2  Scrapy簡介 68
2.11  基本爬蟲實(shí)戰(zhàn):抓取CNBETA網(wǎng)站科技類文章 69
2.11.1  URL管理器 70
2.11.2  數(shù)據(jù)下載器 71
2.11.3 數(shù)據(jù)分析器 72
2.11.4  數(shù)據(jù)保存器 74
2.11.5  調(diào)度器 75
第3章  Scrapy命令行與Shell 78
3.1  SCRAPY命令行介紹 78
3.1.1  使用startproject創(chuàng)建項(xiàng)目 80
3.1.2  使用genspider創(chuàng)建爬蟲 81
3.1.3  使用crawl啟動爬蟲 82
3.1.4  使用list查看爬蟲 82
3.1.5  使用fetch獲取數(shù)據(jù) 83
3.1.6  使用runspider運(yùn)行爬蟲 84
3.1.7  通過view使用瀏覽器打開URL 85
3.1.8  使用parse測試爬蟲 85
3.2  SCRAPY SHELL命令行 85
3.2.1  Scrapy Shell的用法 85
3.2.2  實(shí)戰(zhàn):解析名人名言網(wǎng)站 86
第4章  Scrapy爬蟲 89
4.1  編寫爬蟲 89
4.1.1  scrapy.Spider爬蟲基本類 89
4.1.2  start_requests()方法 90
4.1.3  parse(response)方法 91
4.1.4  Selector選擇器 91
4.2  通用爬蟲 94
4.2.1  CrawlSpider 94
4.2.2  XMLFeedSpider 95
4.2.3  CSVFeedSpider 96
4.2.4  SitemapSpider 97
4.3  爬蟲實(shí)戰(zhàn) 98
4.3.1  實(shí)戰(zhàn)1:CrawlSpider爬取名人名言 98
4.3.2  實(shí)戰(zhàn)2:XMLFeedSpider爬取伯樂在線的RSS 102
4.3.3  實(shí)戰(zhàn)3:CSVFeedSpider提取csv文件數(shù)據(jù) 104
4.3.4  實(shí)戰(zhàn)4:SitemapSpider爬取博客園文章 106
第5章  Scrapy管道 109
5.1  管道簡介 109
5.2  編寫自定義管道 110
5.3  下載文件和圖片 113
5.3.1  文件管道 114
5.3.2  圖片管道 117
5.4  數(shù)據(jù)庫存儲MYSQL 121
5.4.1  在Ubuntu上安裝MySQL 121
5.4.2  在Windows上安裝MySQL 122
5.4.3  MySQL基礎(chǔ) 125
5.4.4  MySQL基本操作 127
5.4.5  Python操作MySQL 129
5.5  數(shù)據(jù)庫存儲MONGODB 131
5.5.1  在Ubuntu上安裝MongoDB 132
5.5.2  在Windows上安裝MongoDB 132
5.5.3  MongoDB基礎(chǔ) 135
5.5.4  MongoDB基本操作 137
5.5.5  Python操作MongoDB 143
5.6  實(shí)戰(zhàn):爬取鏈家二手房信息并保存到數(shù)據(jù)庫 144
第6章  Request與Response 157
6.1  REQUEST對象 157
6.1.1  Request類詳解 158
6.1.2  Request回調(diào)函數(shù)與錯(cuò)誤處理 160
6.2  RESPONSE 162
6.2.1  Response類詳解 162
6.2.2  Response子類 163
第7章  Scrapy中間件 165
7.1  編寫自定義SPIDER中間件 165
7.1.1  激活中間件 165
7.1.2  編寫Spider中間件 166
7.2  SPIDER內(nèi)置中間件 168
7.2.1  DepthMiddleware爬取深度中間件 168
7.2.2  HttpErrorMiddleware失敗請求處理中間件 168
7.2.3  OffsiteMiddleware過濾請求中間件 169
7.2.4  RefererMiddleware參考位置中間件 169
7.2.5  UrlLengthMiddleware網(wǎng)址長度限制中間件 170
7.3  編寫自定義下載器中間件 170
7.3.1  激活中間件 170
7.3.2  編寫下載器中間件 171
7.4  下載器內(nèi)置中間件 173
7.4.1  CookiesMiddleware 173
7.4.2  HttpProxyMiddleware 174
7.5  實(shí)戰(zhàn):為爬蟲添加中間件 174
第8章  Scrapy配置與內(nèi)置服務(wù) 178
8.1  SCRAPY配置簡介 178
8.1.1  命令行選項(xiàng)(優(yōu)先級) 178
8.1.2  每個(gè)爬蟲內(nèi)配置 179
8.1.3  項(xiàng)目設(shè)置模塊 179
8.1.4  默認(rèn)的命令行配置 181
8.1.5  默認(rèn)全局配置(優(yōu)先級) 182
8.2  日志 182
8.3  數(shù)據(jù)收集 184
8.4  發(fā)送郵件 187
8.4.1  簡單例子 187
8.4.2  MailSender類 187
8.4.3  在settings.py中對Mail進(jìn)行設(shè)置 188
8.5  實(shí)戰(zhàn):抓取貓眼電影TOP100榜單數(shù)據(jù) 188
8.5.1  分析頁面元素 189
8.5.2  創(chuàng)建項(xiàng)目 189
8.5.3  編寫items.py 190
8.5.4  編寫管道pipelines.py 190
8.5.5  編寫爬蟲文件top100.py 191
第9章  模擬登錄 194
9.1  模擬提交表單 194
9.2  用COOKIE模擬登錄狀態(tài) 197
9.3  項(xiàng)目實(shí)戰(zhàn) 198
9.3.1  實(shí)戰(zhàn)1:使用FormRequest模擬登錄豆瓣 198
9.3.2  實(shí)戰(zhàn)2:使用Cookie登錄 202
第10章  Scrapy爬蟲優(yōu)化 205
10.1  SCRAPY MONGODB實(shí)戰(zhàn):抓取并保存IT之家博客新聞 205
10.1.1  確定目標(biāo) 205
10.1.2  創(chuàng)建項(xiàng)目 206
10.1.3  編寫items.py文件 207
10.1.4  編寫爬蟲文件news.py 207
10.1.5  編寫管道pipelines.py 209
10.1.6  編寫settings.py 210
10.1.7  運(yùn)行爬蟲 211
10.2  用BENCHMARK進(jìn)行本地環(huán)境評估 212
10.3  擴(kuò)展爬蟲 214
10.3.1  增大并發(fā) 214
10.3.2  關(guān)閉Cookie 214
10.3.3  關(guān)閉重試 214
10.3.4  減少下載超時(shí)時(shí)間 215
10.3.5  關(guān)閉重定向 215
10.3.6  AutoThrottle擴(kuò)展 215
第11章  Scrapy項(xiàng)目實(shí)戰(zhàn):爬取某社區(qū)用戶詳情 217
11.1  項(xiàng)目分析 217
11.1.1  頁面分析 217
11.1.2  抓取流程 221
11.2  創(chuàng)建爬蟲 221
11.2.1  cookies收集器 222
11.2.2  Items類 225
11.2.3  Pipeline管道編寫 226
11.2.4  Spider爬蟲文件 227
11.2.5  Middlewars中間件編寫 235
 

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號