注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)Python數(shù)據(jù)科學(xué)項(xiàng)目實(shí)戰(zhàn)

Python數(shù)據(jù)科學(xué)項(xiàng)目實(shí)戰(zhàn)

Python數(shù)據(jù)科學(xué)項(xiàng)目實(shí)戰(zhàn)

定 價(jià):¥139.00

作 者: [美] 倫納德·阿佩爾辛(Leonard Apeltsin)著,殷海英 史躍東 譯
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787302618140 出版時(shí)間: 2022-11-01 包裝: 平裝-膠訂
開本: 16開 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  ● 網(wǎng)頁(yè)抓取● 使用聚類算法組織數(shù)據(jù)集● 可視化復(fù)雜的多變量數(shù)據(jù)集● 訓(xùn)練決策樹機(jī)器學(xué)習(xí)算法

作者簡(jiǎn)介

  Leonard Apeltsin是Anomaly的數(shù)據(jù)科學(xué)主管。他的團(tuán)隊(duì)?wèi)?yīng)用高級(jí)分析來(lái)發(fā)現(xiàn)醫(yī)療保健欺詐、浪費(fèi)和濫用的情況。在加盟Anomaly之前,Leonard領(lǐng)導(dǎo)了Primer AI的機(jī)器學(xué)習(xí)開發(fā)工作;Primer AI是一家專門從事自然語(yǔ)言處理的初創(chuàng)公司。作為創(chuàng)始成員,Leonard幫助Primer AI團(tuán)隊(duì)從4名員工發(fā)展到近100名員工。在進(jìn)入創(chuàng)業(yè)公司之前,Leonard在學(xué)術(shù)界工作,他發(fā)現(xiàn)了遺傳相關(guān)疾病的隱藏模式。他的發(fā)現(xiàn)發(fā)表在《科學(xué)》和《自然》雜志的附屬期刊上。Leonard擁有卡內(nèi)基梅隆大學(xué)的生物學(xué)和計(jì)算機(jī)科學(xué)學(xué)士學(xué)位,以及加州大學(xué)舊金山分校的生物信息學(xué)博士學(xué)位。

圖書目錄

案例研究1  在紙牌游戲中尋找制勝策略
第1章  使用Python計(jì)算概率 3
1.1  樣本空間分析:一種用于測(cè)量結(jié)果不確定性的無(wú)方程方法 3
1.2  計(jì)算非平凡概率 7
1.2.1  問(wèn)題1:分析一個(gè)有4個(gè)孩子的家庭 7
1.2.2  問(wèn)題2:分析擲骰子游戲 9
1.2.3  問(wèn)題3:使用加權(quán)樣本空間計(jì)算擲骰概率 10
1.3  計(jì)算區(qū)間范圍內(nèi)的概率 12
1.4  本章小結(jié) 14
第2章  使用Matplotlib繪制概率圖 15
2.1  基本的Matplotlib圖 15
2.2  繪制拋硬幣概率 19
2.3  本章小結(jié) 28
第3章  在NumPy中運(yùn)行隨機(jī)模擬 29
3.1  使用NumPy模擬隨機(jī)拋硬幣和擲骰子實(shí)驗(yàn) 29
3.2  使用直方圖和NumPy數(shù)組計(jì)算置信區(qū)間 33
3.2.1  通過(guò)直方圖合并顯示鄰近值 35
3.2.2  利用直方圖進(jìn)行概率推導(dǎo) 38
3.2.3  縮小較高置信區(qū)間的范圍 40
3.2.4  在NumPy中計(jì)算直方圖 43
3.3  使用置信區(qū)間分析一副有偏紙牌 44
3.4  使用排列來(lái)洗牌 47
3.5  本章小結(jié) 49
第4章  案例研究1的解決方案 51
4.1  對(duì)紅牌進(jìn)行預(yù)測(cè) 51
4.2  使用10張牌的樣本空間來(lái)優(yōu)化策略 57
4.3  本章小結(jié) 61
案例研究2  評(píng)估在線廣告點(diǎn)擊的顯著性
第5章  使用SciPy進(jìn)行基本概率和統(tǒng)計(jì)分析 65
5.1  使用SciPy探索數(shù)據(jù)和概率之間的關(guān)系 66
5.2  將均值作為中心性的度量 69
5.3  將方差作為離散性的度量 78
5.4  本章小結(jié) 83
第6章  使用中心極限定理和SciPy進(jìn)行預(yù)測(cè) 85
6.1  使用SciPy處理正態(tài)分布 85
6.2  通過(guò)隨機(jī)采樣確定總體的均值和方差 92
6.3  使用均值和方差進(jìn)行預(yù)測(cè) 95
6.3.1  計(jì)算正態(tài)曲線下方的面積 97
6.3.2  對(duì)計(jì)算的概率進(jìn)行解釋 99
6.4  本章小結(jié) 100
第7章  統(tǒng)計(jì)假設(shè)檢驗(yàn) 101
7.1  評(píng)估樣本均值和總體均值之間的差異 102
7.2  數(shù)據(jù)捕撈:過(guò)采樣將導(dǎo)致錯(cuò)誤的結(jié)論 106
7.3  有放回的自舉法:當(dāng)總體方差未知時(shí)檢驗(yàn)假設(shè) 109
7.4  置換檢驗(yàn):當(dāng)總體參數(shù)未知時(shí)比較樣本的均值 115
7.5  本章小結(jié) 118
第8章  使用Pandas分析表格 119
8.1  使用基本Python存儲(chǔ)表格 119
8.2  使用Pandas探索表格 120
8.3  檢索表中的列 122
8.4  檢索表中的行 124
8.5  修改表格行和列 126
8.6  保存和加載表格數(shù)據(jù) 129
8.7  使用Seaborn對(duì)表格進(jìn)行可視化 130
8.8  本章小結(jié) 133
第9章  案例研究2的解決方案 135
9.1  在Pandas中處理廣告點(diǎn)擊數(shù)據(jù)表 135
9.2  根據(jù)均值差異計(jì)算p值 138
9.3  確定統(tǒng)計(jì)顯著性 140
9.4  一個(gè)真實(shí)的警世故事 142
9.5  本章小結(jié) 142
案例研究3  利用新聞標(biāo)題跟蹤疾病暴發(fā)
第10章  對(duì)數(shù)據(jù)進(jìn)行聚類 145
10.1  使用中心性發(fā)現(xiàn)聚類 145
10.2  K-means:一種將數(shù)據(jù)分組為K個(gè)中心組的聚類算法 151
10.2.1  使用scikit-learn進(jìn)行K-means聚類 152
10.2.2  使用肘部法選擇最佳K值 154
10.3  使用密度發(fā)現(xiàn)聚類 158
10.4  DBSCAN:一種基于空間密度
對(duì)數(shù)據(jù)進(jìn)行分組的聚類算法 161
10.4.1  比較DBSCAN和K-means 162
10.4.2  基于非歐幾里得距離的聚類方法 163
10.5  使用Pandas分析聚類 166
10.6  本章小結(jié) 168
第11章  對(duì)地理位置進(jìn)行可視化與分析 169
11.1  大圓距離:計(jì)算地球上兩點(diǎn)間的距離 170
11.2  使用Cartopy繪制地圖 172
11.2.1  手動(dòng)安裝GEOS和Cartopy 173
11.2.2  使用Conda包管理器 173
11.2.3  可視化地圖 174
11.3  使用GeoNamesCache進(jìn)行位置跟蹤 182
11.3.1  獲取國(guó)家/地區(qū)信息 184
11.3.2  獲取城市信息 186
11.3.3  GeoNamesCache庫(kù)的使用限制 189
11.4  在文本中匹配位置名稱 191
11.5  本章小結(jié) 194
第12章  案例研究3的解決方案 197
12.1  從標(biāo)題數(shù)據(jù)中提取位置信息 197
12.2  對(duì)提取的位置信息進(jìn)行可視化和聚類 203
12.3  對(duì)位置聚類進(jìn)行分析 208
12.4  本章小結(jié) 213
案例研究4  使用在線招聘信息優(yōu)化簡(jiǎn)歷
第13章  測(cè)量文本相似度 217
13.1  簡(jiǎn)單的文本比較 218
13.1.1  探索Jaccard相似度 222
13.1.2  用數(shù)值替換單詞 224
13.2  使用字?jǐn)?shù)對(duì)文本進(jìn)行向量化 228
13.2.1  使用歸一化提高TF向量相似度 230
13.2.2  使用單位向量點(diǎn)積在相關(guān)性指標(biāo)之間進(jìn)行轉(zhuǎn)換 237
13.3  使用矩陣乘法提高相似度計(jì)算的效率 239
13.3.1  基本矩陣運(yùn)算 241
13.3.2  計(jì)算全矩陣相似度 249
13.4  矩陣乘法的計(jì)算限制 250
13.5  本章小結(jié) 253
第14章  矩陣數(shù)據(jù)的降維 255
14.1  將二維數(shù)據(jù)聚類到一維中 256
14.2  使用PCA和scikit-learn降維 269
14.3  將四維數(shù)據(jù)在二維中進(jìn)行聚類 274
14.4  在不旋轉(zhuǎn)的情況下計(jì)算主成分 281
14.5  使用SVD和scikit-learn進(jìn)行高效降維 292
14.6  本章小結(jié) 294
第15章  大型文本數(shù)據(jù)集的NLP分析 295
15.1  使用scikit-learn加載在線論壇討論數(shù)據(jù) 296
15.2  使用scikit-learn對(duì)文檔進(jìn)行向量化 297
15.3  根據(jù)發(fā)布頻率和出現(xiàn)次數(shù)對(duì)單詞進(jìn)行排名 304
15.4  計(jì)算大型文檔數(shù)據(jù)集之間的相似度 311
15.5  按主題對(duì)文本進(jìn)行聚類 315
15.6  對(duì)文本聚類進(jìn)行可視化 323
15.7  本章小結(jié) 333
第16章  從網(wǎng)頁(yè)中提取文本 335
16.1  HTML文檔的結(jié)構(gòu) 335
16.2  使用Beautiful Soup解析HTML 342
16.3  下載和解析在線數(shù)據(jù) 349
16.4  本章小結(jié) 351
第17章  案例研究4的解決方案 353
17.1  從職位發(fā)布數(shù)據(jù)中提取技能要求 353
17.2  根據(jù)相關(guān)性對(duì)工作進(jìn)行過(guò)濾 360
17.3  在相關(guān)職位發(fā)布中對(duì)技能進(jìn)行聚類 369
17.3.1  將工作技能分成15個(gè)聚類 372
17.3.2  詳細(xì)分析技術(shù)技能聚類 377
17.3.3  詳細(xì)分析軟技能聚類 380
17.3.4  使用不同的K值來(lái)探索聚類 381
17.3.5  分析700個(gè)最相關(guān)的職位發(fā)布信息 385
17.4  結(jié)論 388
17.5  本章小結(jié) 388
案例研究5  利用社交網(wǎng)絡(luò)數(shù)據(jù)發(fā)現(xiàn)新朋友
第18章  圖論和網(wǎng)絡(luò)分析 393
18.1  使用基本圖論按受歡迎程度對(duì)網(wǎng)站進(jìn)行排名 393
18.2  利用無(wú)向圖優(yōu)化城鎮(zhèn)之間的旅行時(shí)間 404
18.2.1  建立一個(gè)復(fù)雜的城鎮(zhèn)交通網(wǎng)絡(luò)模型 406
18.2.2  計(jì)算節(jié)點(diǎn)之間的最快旅行時(shí)間 411
18.3  本章小結(jié) 418
第19章  用于節(jié)點(diǎn)排名和社交網(wǎng)絡(luò)分析的動(dòng)態(tài)圖論技術(shù) 419
19.1  根據(jù)網(wǎng)絡(luò)中的預(yù)期流量發(fā)現(xiàn)中心節(jié)點(diǎn) 419
19.2  使用矩陣乘法計(jì)算交通概率 424
19.2.1  從概率論推導(dǎo)PageRank中心性 427
19.2.2  使用NetworkX計(jì)算PageRank中心性 431
19.3  使用馬爾可夫聚類進(jìn)行社區(qū)檢測(cè) 433
19.4  在社交網(wǎng)絡(luò)中發(fā)現(xiàn)朋友群 445
19.5  本章小結(jié) 448
第20章  網(wǎng)絡(luò)驅(qū)動(dòng)的監(jiān)督機(jī)器學(xué)習(xí) 451
20.1  監(jiān)督機(jī)器學(xué)習(xí)的基礎(chǔ) 451
20.2  測(cè)量預(yù)測(cè)的標(biāo)簽的準(zhǔn)確度 459
20.3  優(yōu)化KNN性能 468
20.4  使用scikit-learn進(jìn)行網(wǎng)格搜索 469
20.5  KNN算法的局限性 474
20.6  本章小結(jié) 475
第21章  使用邏輯回歸訓(xùn)練線性分類器 477
21.1  根據(jù)身材尺寸對(duì)客戶進(jìn)行線性劃分 477
21.2  訓(xùn)練線性分類器 482
21.3  使用邏輯回歸改進(jìn)線性分類 492
21.4  使用scikit-learn訓(xùn)練線性分類器 499
21.5  通過(guò)系數(shù)測(cè)量特征的重要性 504
21.6  線性分類器的限制 507
21.7  本章小結(jié) 508
第22章  通過(guò)決策樹技術(shù)訓(xùn)練非線性分類器 511
22.1  邏輯規(guī)則的自動(dòng)學(xué)習(xí) 511
22.1.1  使用兩個(gè)特征訓(xùn)練一個(gè)嵌套的if/else模型 517
22.1.2  決定拆分哪個(gè)特征 523
22.1.3  訓(xùn)練具有兩個(gè)以上特征的if/else模型 530
22.2  使用scikit-learn訓(xùn)練決策樹分類器 536
22.3  決策樹分類器的局限性 545
22.4  使用隨機(jī)森林分類提高模型性能 546
22.5  使用scikit-learn訓(xùn)練隨機(jī)森林分類器 550
22.6  本章小結(jié) 551
第23章  案例研究5的解決方案 553
23.1  探索數(shù)據(jù) 553
23.1.1  檢查Profiles表 554
23.1.2  探索Observations表 556
23.1.3  探索Friendships表 559
23.2  使用網(wǎng)絡(luò)特征訓(xùn)練預(yù)測(cè)模型 562
23.3  向模型中添加個(gè)人資料特征 568
23.4  通過(guò)一組穩(wěn)定的特征優(yōu)化模型性能 572
23.5  解釋訓(xùn)練模型 574
23.6  本章小結(jié) 578
 
 

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)