注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計數(shù)據(jù)科學(xué)實戰(zhàn)之網(wǎng)絡(luò)爬取:Python實踐和示例

數(shù)據(jù)科學(xué)實戰(zhàn)之網(wǎng)絡(luò)爬?。篜ython實踐和示例

數(shù)據(jù)科學(xué)實戰(zhàn)之網(wǎng)絡(luò)爬?。篜ython實踐和示例

定 價:¥69.00

作 者: 希普·萬登·布魯克,巴特·巴森斯 著,羅娜 李福杰譯 譯
出版社: 機(jī)械工業(yè)出版社
叢編項: 數(shù)據(jù)科學(xué)與工程技術(shù)叢書
標(biāo) 簽: 暫缺

ISBN: 9787111614043 出版時間: 2018-12-01 包裝: 平裝
開本: 16開 頁數(shù): 220 字?jǐn)?shù):  

內(nèi)容簡介

  本書提供了一個完整的、現(xiàn)代的Web抓取指南,使用Python作為編程語言,專為數(shù)據(jù)科學(xué)的讀者編寫,探討了Web抓取和以及其背后的大量Web技術(shù)。書中首先簡要概述抓取和現(xiàn)實生活中的用例,解釋了HTTP、HTML和CSS的核心概念作為基礎(chǔ)。*后總結(jié)了一些*佳實踐和一系列的例子,這些數(shù)據(jù)科學(xué)用例匯集了你學(xué)到的所有知識。讀者將學(xué)習(xí)到如何利用已建立的*佳實踐和常用的Python包,處理包括JavaScript、Cookie和常見的web抓取技術(shù)。

作者簡介

  Seppe vanden Broucke是比利時魯汶大學(xué)經(jīng)濟(jì)與商務(wù)學(xué)院數(shù)據(jù)科學(xué)方面的助理教授。他的研究興趣包括商務(wù)數(shù)據(jù)挖掘和分析、機(jī)器學(xué)習(xí)、流程管理和流程挖掘,相關(guān)論文發(fā)表在國際期刊和會議上。 Seppe從事包括高級分析、大數(shù)據(jù)和信息管理課程方面的教學(xué)工作,也經(jīng)常提供工業(yè)和商業(yè)用戶的培訓(xùn)。除了工作,Seppe喜歡旅行、閱讀(從Murakami到Bukowski到Asimov)、聽音樂(從Booka Shade到Miles Davis到Claude Debussy)、看電影和連續(xù)?。ㄓ捎跊]時間現(xiàn)在看得少多了)、玩游戲和關(guān)注新聞事件。Bart Baesens是比利時魯汶大學(xué)大數(shù)據(jù)和數(shù)據(jù)分析方面的教授,也是英國南安普頓大學(xué)的講師。他對大數(shù)據(jù)及分析、信用風(fēng)險建模、欺詐檢測和營銷分析進(jìn)行了廣泛的研究。Bart撰寫了200多篇學(xué)術(shù)論文和若干本書。除了與家人共度時光外,他還是一名布魯日足球俱樂部的鐵桿球迷。Bart是美食家和業(yè)余廚師,他喜歡在他的酒窖里或者在花園里俯瞰紅色英式電話亭時喝一杯好酒(他*喜歡的是白維歐尼或紅赤霞珠)。Bart熱愛旅行,對次世界大戰(zhàn)著迷,并閱讀了很多關(guān)于這個主題的書籍。

圖書目錄

譯者序

作者簡介

技術(shù)審校者簡介

前言

第一部分 網(wǎng)絡(luò)爬取基礎(chǔ)

第1章 簡介2

1.1 什么是網(wǎng)絡(luò)爬取2

1.1.1 網(wǎng)絡(luò)爬取為什么用于數(shù)據(jù)科學(xué)2

1.1.2 誰在使用網(wǎng)絡(luò)爬取4

1.2 準(zhǔn)備工作6

1.2.1 設(shè)置6

1.2.2 Python 快速入門7

第2章 網(wǎng)絡(luò)傳輸協(xié)議HTTP18

2.1 網(wǎng)絡(luò)的魔力18

2.2 超文本傳輸協(xié)議20

2.3 Python中的HTTP—Requests庫25

2.4 帶參數(shù)的URL查詢字符串28

第3章 HTML和CSS36

3.1 超文本標(biāo)記語言HTML36

3.2 將瀏覽器用作開發(fā)工具38

3.3 層疊樣式表CSS42

3.4 Beautiful Soup庫45

3.5 有關(guān)Beautiful Soup的更多內(nèi)容53

第二部分 高級網(wǎng)絡(luò)爬取

第4章 深入挖掘HTTP60

4.1 使用表單和POST請求60

4.2 其他HTTP請求方法71

4.3 關(guān)于頭的更多信息73

4.4 使用Cookie79

4.5 requests庫的session對象87

4.6 二進(jìn)制、JSON和其他形式的內(nèi)容89

第5章 處理JavaScript93

5.1 什么是JavaScript93

5.2 爬取JavaScript94

5.3 使用Selenium爬取網(wǎng)頁98

5.4 Selenium的更多信息109

第6章 從網(wǎng)絡(luò)爬取到網(wǎng)絡(luò)爬蟲115

6.1 什么是網(wǎng)絡(luò)爬蟲115

6.2 使用Python實現(xiàn)網(wǎng)絡(luò)爬蟲117

6.3 數(shù)據(jù)庫存儲120

第三部分 相關(guān)管理問題及最佳實踐

第7章 網(wǎng)絡(luò)爬取涉及的管理和法律問題130

7.1 數(shù)據(jù)科學(xué)過程130

7.2 網(wǎng)絡(luò)爬取適合用于哪里133

7.3 法律問題134

第8章 結(jié)語139

8.1 其他工具139

8.1.1 其他Python庫139

8.1.2 Scrapy庫140

8.1.3 緩存140

8.1.4 代理服務(wù)器141

8.1.5 基于其他編程語言的爬取141

8.1.6 命令行工具142

8.1.7 圖形化的爬取工具142

8.2 最佳實踐和技巧143

第9章 示例147

9.1 爬取Hacker News網(wǎng)頁148

9.2 使用Hacker News API150

9.3 爬取引用信息 150

9.4 爬取書籍信息154

9.5 爬取GitHub上項目被收藏的次數(shù)156

9.6 爬取抵押貸款利率160

9.7 爬取和可視化IMDB評級165

9.8 爬取IATA航空公司信息166

9.9 爬取和分析網(wǎng)絡(luò)論壇的互動171

9.10 收集和聚類時尚數(shù)據(jù)集177

9.11 Amazon評論的情感分析180

9.12 爬取和分析維基百科關(guān)聯(lián)圖188

9.13 爬取和可視化董事會成員圖194

9.14 使用深度學(xué)習(xí)破解驗證碼圖片197
......

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號