注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)零基礎(chǔ)學(xué)Python網(wǎng)絡(luò)爬蟲案例實(shí)戰(zhàn)全流程詳解(入門與提高篇)

零基礎(chǔ)學(xué)Python網(wǎng)絡(luò)爬蟲案例實(shí)戰(zhàn)全流程詳解(入門與提高篇)

零基礎(chǔ)學(xué)Python網(wǎng)絡(luò)爬蟲案例實(shí)戰(zhàn)全流程詳解(入門與提高篇)

定 價(jià):¥99.00

作 者: 王宇韜 吳子湛 等
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787111683681 出版時(shí)間: 2021-06-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  網(wǎng)絡(luò)爬蟲是當(dāng)今獲取數(shù)據(jù)不可或缺的重要手段。本書講解了Python 爬蟲的基礎(chǔ)知識和技能,幫助零基礎(chǔ)的讀者快速入門并熟練使用爬蟲。全書共8 章。第1 章講解Python 開發(fā)環(huán)境的安裝與配置以及Python 的基礎(chǔ)語法知識。第2 章講解如何運(yùn)用Requests 庫和Selenium 庫獲取網(wǎng)頁源代碼。第3 章講解如何運(yùn)用正則表達(dá)式和BeautifulSoup 庫解析和提取數(shù)據(jù)。第4 章深入講解Selenium 庫在商業(yè)實(shí)戰(zhàn)中的進(jìn)階應(yīng)用。第5 章講解爬蟲數(shù)據(jù)的處理與可視化。第6 章講解爬蟲數(shù)據(jù)結(jié)構(gòu)化神器pandas 庫,以及如何通過Python 在MySQL 數(shù)據(jù)庫中讀寫數(shù)據(jù)。第7 章講解如何運(yùn)用多線程和多進(jìn)程技術(shù)提高爬蟲效率。第8 章講解如何運(yùn)用IP 代理應(yīng)對網(wǎng)站的反爬機(jī)制。本書對于編程新手來說非常友好,從Python 基礎(chǔ)到爬蟲原理再到實(shí)戰(zhàn)應(yīng)用,循序漸進(jìn)地幫助讀者打好基礎(chǔ)。對于有一定Python 爬蟲基礎(chǔ)的讀者,本書也針對實(shí)戰(zhàn)中常見的疑點(diǎn)和難點(diǎn)提供了解決技巧。

作者簡介

  王宇韜華能貴誠信托金融科技實(shí)驗(yàn)室發(fā)起人,賓夕法尼亞大學(xué)碩士,上海交通大學(xué)學(xué)士,曾在劍橋大學(xué)交流學(xué)習(xí),兩年內(nèi)通過CFA 3 級、FRM 2 級、AQF。在華能貴誠信托自主研發(fā)了輿情監(jiān)控系統(tǒng)、資金雷達(dá)、流程自動化AI 系統(tǒng)、機(jī)器視頻面試系統(tǒng)等;專注于科技在金融領(lǐng)域的應(yīng)用,編著有《Python 金融大數(shù)據(jù)挖掘與分析全流程詳解》和《Python 大數(shù)據(jù)分析與機(jī)器學(xué)習(xí)商業(yè)案例實(shí)戰(zhàn)》。吳子湛畢業(yè)于合肥工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,就職于南京市秦淮區(qū)大數(shù)據(jù)中心;擁有多年IT 研發(fā)經(jīng)驗(yàn),擅長大數(shù)據(jù)分析與挖掘。

圖書目錄

第1章 Python基礎(chǔ)
1.1 Python快速上手
1.1.1 安裝Python
1.1.2 編寫個Python程序
1.1.3 PyCharm的安裝與使用
1.1.4 Jupyter Notebook的使用
1.2 Python語法基礎(chǔ)知識
1.2.1 變量、行、縮進(jìn)與注釋
1.2.2 數(shù)據(jù)類型:數(shù)字與字符串
1.2.3 數(shù)據(jù)類型:列表與字典、元組與集合
1.2.4 運(yùn)算符
1.3 Python語句
1.3.1 if條件語句
1.3.2 for循環(huán)語句
1.3.3 while循環(huán)語句
1.3.4 try/except異常處理語句
1.4 函數(shù)與庫
1.4.1 函數(shù)的定義與調(diào)用
1.4.2 函數(shù)的返回值與變量的作用域
1.4.3 常用內(nèi)置函數(shù)介紹
1.4.4 庫的導(dǎo)入與安裝
★ 課后習(xí)題
 
 
第2章 爬蟲步:獲取網(wǎng)頁源代碼
2.1 爬蟲核心庫1:Requests庫
2.1.1 如何查看網(wǎng)頁源代碼
2.1.2 用Requests庫獲取網(wǎng)頁源代碼:百度新聞
2.1.3 Requests庫的“軟肋”
2.2 爬蟲核心庫2:Selenium庫
2.2.1 模擬瀏覽器及Selenium庫的安裝
2.2.2 用Selenium庫獲取網(wǎng)頁源代碼:新浪財(cái)經(jīng)股票信息
2.3 網(wǎng)頁結(jié)構(gòu)分析
2.3.1 網(wǎng)頁結(jié)構(gòu)基礎(chǔ)
2.3.2 網(wǎng)頁結(jié)構(gòu)進(jìn)階
★ 課后習(xí)題
 
第3章 爬蟲第二步:數(shù)據(jù)解析與提取
3.1 用正則表達(dá)式解析和提取數(shù)據(jù)
3.1.1 正則表達(dá)式基礎(chǔ)1:findall()函數(shù)
3.1.2 正則表達(dá)式基礎(chǔ)2:非貪婪匹配之“(.*?)”
3.1.3 正則表達(dá)式基礎(chǔ)3:非貪婪匹配之“.*?”
3.1.4 正則表達(dá)式基礎(chǔ)4:自動考慮換行的修飾符re.S
3.1.5 正則表達(dá)式基礎(chǔ)5:知識點(diǎn)補(bǔ)充
3.1.6 案例實(shí)戰(zhàn):提取百度新聞的標(biāo)題、網(wǎng)址、日期和來源
3.2 用BeautifulSoup庫解析和提取數(shù)據(jù)
3.2.1 解析特定標(biāo)簽的網(wǎng)頁元素
3.2.2 解析特定屬性的網(wǎng)頁元素
3.2.3 提取標(biāo)簽中的網(wǎng)址 3.2.4 案例實(shí)戰(zhàn):新浪新聞標(biāo)題和網(wǎng)址爬取
3.3 百度新聞爬取進(jìn)階探索
3.3.1 批量爬取多家公司的新聞
3.3.2 將爬取結(jié)果保存為文本文件
3.3.3 異常處理及24小時(shí)不間斷爬取
3.3.4 批量爬取多頁內(nèi)容
3.4 證券日報(bào)網(wǎng)爬取實(shí)戰(zhàn)
3.4.1 用正則表達(dá)式爬取
3.4.2 用BeautifulSoup庫爬取
3.5 中證網(wǎng)爬取實(shí)戰(zhàn)
3.6 新浪微博爬取實(shí)戰(zhàn)
3.7 上海證券交易所上市公司PDF文件下載
3.7.1 用Requests庫下載文件的基本方法
3.7.2 初步嘗試下載上海證券交易所上市公司PDF文件
3.8 豆瓣電影Top 250排行榜海報(bào)圖片下載
3.8.1 爬取單頁
3.8.2 爬取多頁
★ 課后習(xí)題
 
 
第4章 爬蟲神器Selenium庫深度講解
4.1 Selenium庫進(jìn)階知識
4.2 新浪財(cái)經(jīng)股票行情數(shù)據(jù)爬取
4.2.1 用Selenium庫爬取股票行情數(shù)據(jù)
4.2.2 用新浪財(cái)經(jīng)API爬取股票行情數(shù)據(jù)
4.3 東方財(cái)富網(wǎng)數(shù)據(jù)爬取
4.3.1 上市公司股吧帖子爬取
4.3.2 上市公司新聞爬取
4.3.3 上市公司研報(bào)PDF文件下載
4.4 上海證券交易所問詢函信息爬取及PDF文件下載
4.4.1 批量下載單個頁面上的PDF文件
4.4.2 批量下載多個頁面上的PDF文件
4.4.3 匯總問詢函信息并導(dǎo)出為Excel工作簿
4.5 銀行間拆借利率爬取
4.6 雪球股票評論信息爬取
4.7 商品評價(jià)信息爬取
4.7.1 用Selenium庫爬取
4.7.2 用Requests庫爬取
4.8 淘寶天貓商品銷量數(shù)據(jù)爬取
4.9 Selenium庫趣味案例:網(wǎng)頁自動投票
★ 課后習(xí)題
 
 
第5章 數(shù)據(jù)處理與可視化
5.1 數(shù)據(jù)清洗與優(yōu)化技巧
5.1.1 常用的數(shù)據(jù)清洗手段及日期格式的統(tǒng)一
5.1.2 文本內(nèi)容過濾—剔除噪聲數(shù)據(jù)
5.1.3 數(shù)據(jù)亂碼問題處理
5.1.4 數(shù)據(jù)爬后處理之輿情評分
5.2 數(shù)據(jù)可視化分析—詞云圖繪制
5.2.1 用jieba庫實(shí)現(xiàn)中文分詞
5.2.2 用wordcloud庫繪制詞云圖
5.2.3 案例實(shí)戰(zhàn):新浪微博詞云圖繪制
★ 課后習(xí)題
 
 
第6章 數(shù)據(jù)結(jié)構(gòu)化與數(shù)據(jù)存儲
6.1 數(shù)據(jù)結(jié)構(gòu)化神器—pandas庫
6.1.1 用read_html()函數(shù)快速爬取網(wǎng)頁表格數(shù)據(jù)
6.1.2 pandas庫在爬蟲領(lǐng)域的核心代碼知識
6.2 新浪財(cái)經(jīng)—資產(chǎn)負(fù)債表獲取
6.3 百度新聞—文本數(shù)據(jù)結(jié)構(gòu)化
6.3.1 將單家公司的新聞導(dǎo)出為Excel工作簿
6.3.2 將多家公司的新聞導(dǎo)出為Excel工作簿
6.4 百度愛企查—股權(quán)穿透研究
6.4.1 單層股權(quán)結(jié)構(gòu)爬取
6.4.2 多層股權(quán)結(jié)構(gòu)爬取
6.5 天天基金網(wǎng)—股票型基金信息爬取
6.5.1 爬取基金信息表格
6.5.2 爬取基金的詳情頁面網(wǎng)址
6.6 集思錄—可轉(zhuǎn)債信息爬取
6.7 東方財(cái)富網(wǎng)—券商研報(bào)信息爬取
6.7.1 爬取券商研報(bào)信息表格
6.7.2 爬取研報(bào)的詳情頁面網(wǎng)址
6.8 數(shù)據(jù)存儲—MySQL快速入門
6.8.1 MySQL的安裝
6.8.2 MySQL的基本操作
6.9 用Python操控?cái)?shù)據(jù)庫
6.9.1 用PyMySQL庫操控?cái)?shù)據(jù)庫
6.9.2 案例實(shí)戰(zhàn):百度新聞數(shù)據(jù)爬取與存儲
6.9.3 用pandas庫操控?cái)?shù)據(jù)庫
★ 課后習(xí)題
 
 
第7章 Python多線程和多進(jìn)程爬蟲
7.1 理解線程與進(jìn)程
7.1.1 計(jì)算機(jī)硬件結(jié)構(gòu)基礎(chǔ)知識
7.1.2 線程與進(jìn)程
7.1.3 單線程、多線程與多進(jìn)程
7.1.4 爬蟲任務(wù)中的多線程與多進(jìn)程
7.2 Python多線程爬蟲編程實(shí)戰(zhàn)
7.2.1 Python多線程編程基礎(chǔ)知識
7.2.2 Python多線程編程進(jìn)階知識
7.2.3 案例實(shí)戰(zhàn):多線程爬取百度新聞
7.3 Python多進(jìn)程爬蟲編程實(shí)戰(zhàn)
7.3.1 Python多進(jìn)程編程基礎(chǔ)知識
7.3.2 Python多進(jìn)程編程進(jìn)階知識
7.3.3 案例實(shí)戰(zhàn):多進(jìn)程爬取百度新聞
★ 課后習(xí)題
 
 
第8章 IP代理使用技巧與實(shí)戰(zhàn)
8.1 結(jié)合Requests庫使用IP代理
8.1.1 IP代理基礎(chǔ)知識
8.1.2 IP代理的使用
8.2 IP代理實(shí)戰(zhàn)1:用Requests庫爬取公眾號文章
8.2.1 直接用Requests庫爬取
8.2.2 添加IP代理進(jìn)行爬取
8.2.3 添加智能IP切換系統(tǒng)
8.3 結(jié)合Selenium庫使用IP代理
8.4 IP代理實(shí)戰(zhàn)2:用Selenium庫爬取公眾號文章
8.4.1 直接用Selenium庫爬取
8.4.2 添加IP代理進(jìn)行爬取
8.4.3 添加智能IP切換系統(tǒng)
★ 課后習(xí)題
后記

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號