注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)從零開(kāi)始學(xué)Scrapy網(wǎng)絡(luò)爬蟲(chóng)(視頻教學(xué)版)

從零開(kāi)始學(xué)Scrapy網(wǎng)絡(luò)爬蟲(chóng)(視頻教學(xué)版)

從零開(kāi)始學(xué)Scrapy網(wǎng)絡(luò)爬蟲(chóng)(視頻教學(xué)版)

定 價(jià):¥99.00

作 者: 張濤 著
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787111634744 出版時(shí)間: 2019-09-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 283 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書(shū)從零開(kāi)始,循序漸進(jìn)地介紹了目前*流行的網(wǎng)絡(luò)爬蟲(chóng)框架Scrapy。本書(shū)共13章。其中第1~4章為基礎(chǔ)篇,介紹了Python基礎(chǔ)、網(wǎng)絡(luò)爬蟲(chóng)基礎(chǔ)、Scrapy框架及基本的爬蟲(chóng)功能。第5~10章為進(jìn)階篇,介紹了如何將爬蟲(chóng)數(shù)據(jù)存儲(chǔ)于MySQL、MongoDB和Redis數(shù)據(jù)庫(kù)中;如何實(shí)現(xiàn)異步的Ajax數(shù)據(jù)的爬??;如何使用Selenium和Splash實(shí)現(xiàn)動(dòng)態(tài)網(wǎng)站的爬取;如何實(shí)現(xiàn)模擬登錄功能;如何突破反爬蟲(chóng)技術(shù),以及如何實(shí)現(xiàn)文件和圖片的下載。第11~13章為高級(jí)篇,介紹了使用Scrapy-Redis實(shí)現(xiàn)分布式爬蟲(chóng);使用Scrapyd和Docker部署分布式爬蟲(chóng);使用Gerapy管理分布式爬蟲(chóng),并實(shí)現(xiàn)了一個(gè)搶票軟件的綜合項(xiàng)目。 本書(shū)適合爬蟲(chóng)初學(xué)者、爬蟲(chóng)愛(ài)好者及高校相關(guān)學(xué)生,也適合數(shù)據(jù)爬蟲(chóng)工程師作為參考讀物,同時(shí)也適合各大院校和培訓(xùn)機(jī)構(gòu)作為教材使用。

作者簡(jiǎn)介

  張濤畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué),獲碩士學(xué)位。目前在科大訊飛從事人工智能教育培訓(xùn)與研究。加入科大訊飛之前,曾經(jīng)在知名日資企業(yè)任職研發(fā)經(jīng)理,負(fù)責(zé)日本大型證券系統(tǒng)的設(shè)計(jì)與開(kāi)發(fā)。有7年大學(xué)課程改革與教學(xué)經(jīng)驗(yàn),主要研究方向?yàn)镻ython網(wǎng)絡(luò)爬蟲(chóng)、數(shù)據(jù)分析和機(jī)器學(xué)習(xí)。

圖書(shū)目錄

前言
第1篇 基礎(chǔ)篇
第1章 Python基礎(chǔ)2
1.1 Python簡(jiǎn)介2
1.1.1 Python簡(jiǎn)史2
1.1.2 搭建Python環(huán)境3
1.1.3 安裝PyCharm集成開(kāi)發(fā)環(huán)境6
1.2 Python基本語(yǔ)法7
1.2.1 基本數(shù)據(jù)類(lèi)型和運(yùn)算7
1.2.2 運(yùn)算符和表達(dá)式8
1.2.3 條件判斷語(yǔ)句9
1.2.4 循環(huán)語(yǔ)句10
1.2.5 字符串12
1.3 Python內(nèi)置數(shù)據(jù)結(jié)構(gòu)14
1.3.1 列表15
1.3.2 字典16
1.3.3 元組17
1.3.4 遍歷對(duì)象集合17
1.4 Python模塊化設(shè)計(jì)18
1.4.1 函數(shù)18
1.4.2 迭代器(iterator)20
1.4.3 生成器(Generator)20
1.4.4 類(lèi)和對(duì)象22
1.4.5 文件與異常23
1.5 本章小結(jié)25
第2章 網(wǎng)絡(luò)爬蟲(chóng)基礎(chǔ)26
2.1 HTTP基本原理26
2.1.1 URL介紹27
2.1.2 HTTP和HTTPS協(xié)議27
2.1.3 HTTP請(qǐng)求(Request)27
2.1.4 HTTP響應(yīng)(Response)30
2.2 網(wǎng)頁(yè)基礎(chǔ)32
2.2.1 HTML文檔33
2.2.2 網(wǎng)頁(yè)的結(jié)構(gòu)33
2.2.3 節(jié)點(diǎn)樹(shù)及節(jié)點(diǎn)之間的關(guān)系34
2.3 使用XPath提取網(wǎng)頁(yè)信息36
2.3.1 XPath介紹36
2.3.2 XPath常用路徑表達(dá)式36
2.3.3 XPath帶謂語(yǔ)的路徑表達(dá)式39
2.4 本章小結(jié)40
第3章 Scrapy框架介紹41
3.1 網(wǎng)絡(luò)爬蟲(chóng)原理41
3.1.1 爬蟲(chóng)執(zhí)行的流程41
3.2 Scrapy框架結(jié)構(gòu)及執(zhí)行流程42
3.2.1 Scrapy框架結(jié)構(gòu)42
3.2.2 Scrapy執(zhí)行流程44
3.3 Scrapy安裝44
3.3.1 使用pip安裝Scrapy44
3.3.2 常見(jiàn)安裝錯(cuò)誤45
3.3.3 驗(yàn)證安裝46
3.4 第一個(gè)網(wǎng)絡(luò)爬蟲(chóng)46
3.4.1 需求分析46
3.4.2 創(chuàng)建項(xiàng)目47
3.4.3 分析頁(yè)面48
3.4.4 實(shí)現(xiàn)Spider爬蟲(chóng)功能49
3.4.5 運(yùn)行爬蟲(chóng)50
3.4.6 常見(jiàn)問(wèn)題51
3.5 本章小結(jié)52
第4章 Scrapy網(wǎng)絡(luò)爬蟲(chóng)基礎(chǔ)53
4.1 使用Spider提取數(shù)據(jù)53
4.1.1 Spider組件介紹53
4.1.2 重寫(xiě)start_requests()方法55
4.1.3 Request對(duì)象57
4.1.4 使用選擇器提取數(shù)據(jù)58
4.1.5 Response對(duì)象與XPath59
4.1.6 Response對(duì)象與CSS61
4.1.7 進(jìn)一步了解Response對(duì)象62
4.1.8 多頁(yè)數(shù)據(jù)的爬取63
4.2 使用Item封裝數(shù)據(jù)64
4.2.1 定義Item和Field65
4.2.2 使用ItemLoader填充容器66
4.3 使用Pipeline處理數(shù)據(jù)69
4.3.1 Item Pipeline介紹70
4.3.2 編寫(xiě)自己的Item Pipeline70
4.3.3 啟用Item Pipeline71
4.3.4 多個(gè)Item Pipeline71
4.3.5 保存為其他類(lèi)型文件72
4.4 項(xiàng)目案例:爬取鏈家網(wǎng)二手房信息75
4.4.1 項(xiàng)目需求75
4.4.2 技術(shù)分析76
4.4.3 代碼實(shí)現(xiàn)及解析77
4.5 本章小結(jié)85
第2篇 進(jìn)階篇
第5章 數(shù)據(jù)庫(kù)存儲(chǔ)88
5.1 MySQL數(shù)據(jù)庫(kù)88
5.1.1 關(guān)系型數(shù)據(jù)庫(kù)概述88
5.1.2 下載和安裝MySQL數(shù)據(jù)庫(kù)88
5.1.3 數(shù)據(jù)庫(kù)管理工具Navicat92
5.1.4 Python訪問(wèn)MySQL數(shù)據(jù)庫(kù)94
5.1.5 項(xiàng)目案例97
5.2 MongoDB數(shù)據(jù)庫(kù)100
5.2.1 NoSQL概述100
5.2.2 MongoDB介紹100
5.2.3 MongoDB的下載和安裝101
5.2.4 Python訪問(wèn)MongoDB數(shù)據(jù)庫(kù)102
5.2.5 項(xiàng)目案例108
5.3 Redis數(shù)據(jù)庫(kù)111
5.3.1 Redis的下載和安裝111
5.3.2 Python訪問(wèn)Redis113
5.3.3 項(xiàng)目案例118
5.4 本章小結(jié)121
第6章 JavaScript與AJAX數(shù)據(jù)爬取122
6.1 JavaScript簡(jiǎn)介122
6.2 項(xiàng)目案例:爬取QQ音樂(lè)榜單歌曲122
6.2.1 項(xiàng)目需求122
6.2.2 技術(shù)分析123
6.2.3 代碼實(shí)現(xiàn)及解析126
6.2.4 更常見(jiàn)的動(dòng)態(tài)網(wǎng)頁(yè)128
6.3 AJAX簡(jiǎn)介129
6.4 項(xiàng)目案例:爬取豆瓣電影信息130
6.4.1 項(xiàng)目需求130
6.4.2 技術(shù)分析130
6.4.3 代碼實(shí)現(xiàn)及解析133
6.5 本章小結(jié)135
第7章 動(dòng)態(tài)渲染頁(yè)面的爬取136
7.1 Selenium實(shí)現(xiàn)動(dòng)態(tài)頁(yè)面爬取136
7.1.1 Selenium安裝136
7.1.2 Selenium簡(jiǎn)單實(shí)現(xiàn)137
7.1.3 Selenium語(yǔ)法138
7.2 項(xiàng)目案例:爬取今日頭條熱點(diǎn)新聞145
7.2.1 項(xiàng)目需求145
7.2.2 技術(shù)分析145
7.2.3 代碼實(shí)現(xiàn)及解析147
7.3 Splash實(shí)現(xiàn)動(dòng)態(tài)頁(yè)面爬取151
7.3.1 Splash介紹151
7.3.2 Splash環(huán)境搭建152
7.3.3 Splash模塊介紹156
7.4 項(xiàng)目案例:爬取一號(hào)店中的iPhone手機(jī)信息162
7.4.1 項(xiàng)目需求162
7.4.2 技術(shù)分析163
7.4.3 代碼實(shí)現(xiàn)及解析165
7.5 本章小結(jié)168
第8章 模擬登錄169
8.1 模擬登錄解析169
8.1.1 登錄過(guò)程解析169
8.1.2 模擬登錄的實(shí)現(xiàn)171
8.2 驗(yàn)證碼識(shí)別174
8.2.1 使用OCR識(shí)別驗(yàn)證碼174
8.2.2 處理復(fù)雜驗(yàn)證碼176
8.2.3 五花八門(mén)的驗(yàn)證碼177
8.3 Cookie自動(dòng)登錄177
8.3.1 Cookie介紹178
8.3.2 獲取Cookie的庫(kù)—browsercookie179
8.4 項(xiàng)目案例:爬取起點(diǎn)中文網(wǎng)某用戶的書(shū)架信息180
8.4.1 項(xiàng)目需求180
8.4.2 技術(shù)分析180
8.4.3 代碼實(shí)現(xiàn)及解析182
8.5 本章小結(jié)184
第9章 突破反爬蟲(chóng)技術(shù)185
9.1 反爬蟲(chóng)技術(shù)及突破措施185
9.2 偽裝成不同的瀏覽器187
9.2.1 UserAgentMiddleware中間件介紹187
9.2.2 實(shí)現(xiàn)偽裝成隨機(jī)瀏覽器188
9.2.3 更簡(jiǎn)單的方法191
9.3 使用HTTP代理服務(wù)器192
9.3.1 HTTP代理服務(wù)器192
9.3.2 獲取免費(fèi)代理193
9.3.3 實(shí)現(xiàn)隨機(jī)代理199
9.4 本章小結(jié)202
第10章 文件和圖片下載203
10.1 文件下載203
10.1.1 FilesPipeline執(zhí)行流程203
10.2 項(xiàng)目案例:爬取seaborn案例源文件204
10.2.1 項(xiàng)目需求20

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)