注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書教育/教材/教輔教材高職高專教材Python網(wǎng)絡爬蟲技術與實踐

Python網(wǎng)絡爬蟲技術與實踐

Python網(wǎng)絡爬蟲技術與實踐

定 價:¥69.90

作 者: 呂云翔,張揚,楊壯
出版社: 機械工業(yè)出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787111728467 出版時間: 2023-06-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字數(shù):  

內(nèi)容簡介

  本書介紹如何使用Python語言進行網(wǎng)絡爬蟲程序的開發(fā),從Python語言的基本特性入手,詳細介紹了Python爬蟲程序開發(fā)的各個方面,包括HTTP、HTML、JavaScript、正則表達式、自然語言處理、數(shù)據(jù)科學等不同領域的內(nèi)容。全書共14章,分為基礎篇、進階篇、提高篇和實戰(zhàn)篇四個部分,內(nèi)容覆蓋網(wǎng)絡抓取與爬蟲編程中的主要知識和技術。同時,本書在重視理論基礎的前提下,從實用性和豐富度出發(fā),結合實例演示了編寫爬蟲程序的核心流程。本書適合Python語言初學者、網(wǎng)絡爬蟲技術愛好者、數(shù)據(jù)分析從業(yè)人員以及高等院校計算機科學、軟件工程等相關專業(yè)的師生閱讀。

作者簡介

暫缺《Python網(wǎng)絡爬蟲技術與實踐》作者簡介

圖書目錄

前言
基 礎 篇
第1章 Python基礎及網(wǎng)絡爬蟲1
1.1 了解Python語言1
1.1.1 Python是什么2
1.1.2 Python的應用現(xiàn)狀2
1.2 配置安裝Python開發(fā)環(huán)境3
1.2.1 在Windows上安裝3
1.2.2 在Ubuntu和MacOS上安裝4
1.2.3 IDE的使用:以PyCharm為例5
1.2.4 Jupyter Notebook簡介9
1.3 Python基本語法介紹11
1.3.1 HelloWorld與數(shù)據(jù)類型11
1.3.2 邏輯語句17
1.3.3 Python中的函數(shù)與類20
1.3.4 更深入了解Python22
1.4 互聯(lián)網(wǎng)、HTTP與HTML22
1.4.1 互聯(lián)網(wǎng)與HTTP22
1.4.2 HTML23
1.5 Hello, Spider!25
1.5.1 編寫第一個爬蟲程序25
1.5.2 對爬蟲的思考27
1.6 分析網(wǎng)站28
1.6.1 robots.txt與Sitemap簡介28
1.6.2 網(wǎng)站技術分析31
1.6.3 網(wǎng)站所有者信息分析33
1.6.4 使用開發(fā)者工具檢查網(wǎng)頁34
1.7 本章小結37
1.8 實踐:Python環(huán)境的配置與
爬蟲的運行37
1.8.1 需求說明37
1.8.2 實現(xiàn)思路及步驟37
1.9 習題37
第2章 數(shù)據(jù)采集與預處理39
2.1 數(shù)據(jù)39
2.1.1 數(shù)據(jù)的概念39
2.1.2 數(shù)據(jù)類型40
2.1.3 數(shù)據(jù)的存儲形式42
2.1.4 數(shù)據(jù)的價值42
2.1.5 大數(shù)據(jù)時代43
2.2 數(shù)據(jù)分析過程43
2.3 數(shù)據(jù)采集44
2.3.1 數(shù)據(jù)采集的概念44
2.3.2 數(shù)據(jù)采集的數(shù)據(jù)源44
2.3.3 數(shù)據(jù)采集方法45
2.4 數(shù)據(jù)清洗45
2.4.1 數(shù)據(jù)清洗概述45
2.4.2 數(shù)據(jù)清洗的內(nèi)容46
2.4.3 數(shù)據(jù)清洗的基本流程46
2.4.4 數(shù)據(jù)清洗的評價標準47
2.5 數(shù)據(jù)集成47
2.6 數(shù)據(jù)轉換48
2.6.1 數(shù)據(jù)轉換概念與策略48
2.6.2 平滑處理48
2.6.3 標準化處理50
2.7 數(shù)據(jù)脫敏50
2.7.1 數(shù)據(jù)脫敏的原則50
2.7.2 數(shù)據(jù)脫敏的方法51
2.8 本章小結51
2.9 實踐:使用Python嘗試數(shù)據(jù)的
清洗51
2.9.1 需求說明51
2.9.2 實現(xiàn)思路及步驟51
2.10 習題51
第3章 靜態(tài)網(wǎng)頁采集53
3.1 從采集開始53
3.2 正則表達式54
3.2.1 什么是正則表達式54
3.2.2 正則表達式的簡單使用56
3.3 BeautifulSoup爬蟲58
3.3.1 安裝BeautifulSoup58
3.3.2 BeautifulSoup的基本用法61
3.4 XPath與lxml64
3.4.1 XPath64
3.4.2 lxml與XPath的使用65
3.5 遍歷頁面67
3.5.1 抓取下一個頁面67
3.5.2 完成爬蟲68
3.6 使用API70
3.6.1 API簡介70
3.6.2 API使用示例72
3.7 本章小結75
3.8 實踐:嗶哩嗶哩直播間信息
爬取練習75
3.8.1 需求說明75
3.8.2 實現(xiàn)思路及步驟75
3.9 習題76
第4章 數(shù)據(jù)存儲77
4.1 Python中的文件77
4.1.1 Python的文件讀寫77
4.1.2 對象序列化79
4.2 Python中的字符串80
4.3 Python中的圖片81
4.3.1 PIL與Pillow模塊81
4.3.2 Python與OpenCV簡介83
4.4 CSV84
4.4.1 CSV簡介84
4.4.2 CSV的讀寫84
4.5 數(shù)據(jù)庫的使用86
4.5.1 MySQL的使用86
4.5.2 SQLite3的使用88
4.5.3 SQLAlchemy的使用89
4.5.4 Redis的使用91
4.5.5 MongoDB的使用91
4.6 其他類型的文檔92
4.7 本章小結97
4.8 實踐:使用Python 3讀寫SQLite
數(shù)據(jù)庫97
4.8.1 需求說明97
4.8.2 實現(xiàn)思路及步驟97
4.9 習題97
進 階 篇
第5章 JavaScript與動態(tài)內(nèi)容99
5.1 JavaScript與AJAX技術100
5.1.1 JavaScript語言100
5.1.2 AJAX103
5.2 抓取AJAX數(shù)據(jù)104
5.2.1 分析數(shù)據(jù)104
5.2.2 數(shù)據(jù)提取108
5.3 抓取動態(tài)內(nèi)容113
5.3.1 動態(tài)渲染頁面113
5.3.2 使用Selenium114
5.3.3 PyV8與Splash120
5.4 本章小結123
5.5 實踐:爬取機械工業(yè)出版社新書
上架信息123
5.5.1 需求說明123
5.5.2 實現(xiàn)思路及步驟124
5.6 習題124
第6章 模擬登錄與驗證碼125
6.1 表單125
6.1.1 表單與POST125
6.1.2 POST發(fā)送表單數(shù)據(jù)127
6.2 Cookie130
6.2.1 Cookie簡介130
6.2.2 在Python中Cookie的使用131
6.3 模擬登錄網(wǎng)站133
6.3.1 分析網(wǎng)站133
6.3.2 Cookie方法的模擬登錄134
6.4 驗證碼137
6.4.1 圖片驗證碼137
6.4.2 滑動驗證139
6.5 本章小結142
6.6 實踐:通過Selenium模擬登錄Gitee并保存Cookie143
6.6.1 需求說明143
6.6.2 實現(xiàn)思路及步驟143
6.7 習題143
第7章 爬蟲數(shù)據(jù)的分析與處理144
7.1 Python與文本分析144
7.1.1 文本分析簡介144
7.1.2 jieba與SnowNLP145
7.1.3 NLTK148
7.1.4 文本分類與聚類151
7.2 數(shù)據(jù)處理與科學計算153
7.2.1 從MATLAB到Python153
7.2.2 NumPy154
7.2.3 Pandas158
7.2.4 Matplotlib163
7.2.5 SciPy與SymPy167
7.3 本章小結167
7.4 實踐:中國每年大學招生人數(shù)
變化的可視化167
7.4.1 需求說明167
7.4.2 實現(xiàn)思路及步驟167
7.5 習題167
提 高 篇
第8章 爬蟲的靈活性和多樣性169
8.1 爬蟲的靈活性——以微信數(shù)據(jù)
抓取為例169
8.1.1 用Selenium抓取Web微信信息169
8.1.2 基于Python的微信API工具173
8.2 爬蟲的多樣性176
8.2.1 在BeautifulSoup和XPath之外176
8.2.2 在線爬蟲應用平臺179
8.2.3 使用urllib180
8.3 爬蟲的部署和管理188
8.3.1 使用服務器部署爬蟲188
8.3.2 本地爬蟲的編寫

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號