注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)軟件與程序設(shè)計Python數(shù)據(jù)科學(xué)入門

Python數(shù)據(jù)科學(xué)入門

Python數(shù)據(jù)科學(xué)入門

定 價:¥69.00

作 者: [美] 約翰·保羅·穆勒(John Paul Mueller),[意] 盧卡·馬薩羅(Luca Massaron) 著,徐旭彬 譯
出版社: 人民郵電出版社
叢編項: 數(shù)據(jù)科學(xué)
標 簽: 暫缺

ISBN: 9787115479624 出版時間: 2018-05-01 包裝: 平裝
開本: 16開 頁數(shù): 372 字數(shù):  

內(nèi)容簡介

  本書的目標是介紹如何使用Python 語言及其工具,解決和數(shù)據(jù)科學(xué)所關(guān)聯(lián)的復(fù)雜任務(wù)。全書共6 個部分,分22 章,涵蓋了Python 數(shù)據(jù)科學(xué)基礎(chǔ)知識,數(shù)據(jù)的采集、整理、整形、應(yīng)用,數(shù)據(jù)的可視化,數(shù)據(jù)分析和處理,數(shù)據(jù)學(xué)習(xí),以及和數(shù)據(jù)科學(xué)相關(guān)的10 個話題等。本書將重點放在使用正確的工具上,教讀者如何使用Anaconda、atPlotLib、NumPy、pandas、Scikit-learn 等常用的工具來解決數(shù)據(jù)科學(xué)的相關(guān)問題。本書適合對數(shù)據(jù)科學(xué)的知識和應(yīng)用方法感興趣的讀者閱讀,特別適合有志于學(xué)習(xí)Python 數(shù)據(jù)分析和處理的讀者學(xué)習(xí)參考。

作者簡介

  約翰·保羅·穆勒(John Paul Mueller)是一名顧問、應(yīng)用開發(fā)人員、作家和技術(shù)編輯,已經(jīng)寫了超過600篇的文章和97本書。盧卡·馬薩羅(Luca Massaron)是一名數(shù)據(jù)科學(xué)家,專注于多變量統(tǒng)計分析、機器學(xué)習(xí)和客戶洞察力等領(lǐng)域。他是意大利Web聽眾分析方面的先驅(qū),是世界知名的數(shù)據(jù)科學(xué)家之一。

圖書目錄

第 1 部分 開啟Python 數(shù)據(jù)科學(xué)之門 1
第 1 章 探索數(shù)據(jù)科學(xué)與Python之間的匹配度 3
1.1 定義21 世紀最誘人的工作 5
1.1.1 思考數(shù)據(jù)科學(xué)的出現(xiàn) 5
1.1.2 概述數(shù)據(jù)科學(xué)家的核心競爭力 6
1.1.3 連接數(shù)據(jù)科學(xué)和大數(shù)據(jù) 7
1.1.4 理解編程的角色 7
1.2 創(chuàng)建數(shù)據(jù)科學(xué)管道 8
1.2.1 準備數(shù)據(jù) 8
1.2.2 執(zhí)行探索性的數(shù)據(jù)分析 8
1.2.3 從數(shù)據(jù)中學(xué)習(xí) 8
1.2.4 可視化 9
1.2.5 獲得洞察力和數(shù)據(jù)產(chǎn)品 9
1.3 理解Python 在數(shù)據(jù)科學(xué)中的角色 9
1.3.1 思考數(shù)據(jù)科學(xué)家的多面性 9
1.3.2 使用一門多用途、簡單而高效的語言來工作 10
1.4 快速學(xué)會使用Python 11
1.4.1 加載數(shù)據(jù) 11
1.4.2 訓(xùn)練模型 12
1.4.3 顯示結(jié)果 13
第 2 章 介紹Python 的能力和奇跡 14
2.1 為什么是Python 15
2.1.1 抓住Python 的核心哲學(xué) 16
2.1.2 探索現(xiàn)在和未來的開發(fā)目標 16
2.2 使用Python 工作 17
2.2.1 品味語言 17
2.2.2 理解縮進的需求 17
2.2.3 用命令行或者IDE 工作 18
2.3 運行快速原型和實驗 22
2.4 考慮執(zhí)行速度 23
2.5 可視化能力 24
2.6 為數(shù)據(jù)科學(xué)使用Python生態(tài)系統(tǒng) 26
2.6.1 使用SciPy 來訪問用于科學(xué)的工具 26
2.6.2 使用NumPy 執(zhí)行基礎(chǔ)的科學(xué)計算 26
2.6.3 使用pandas 來執(zhí)行數(shù)據(jù)分析 26
2.6.4 使用Scikit-learn 實現(xiàn)機器學(xué)習(xí) 27
2.6.5 使用matplotlib 來標繪數(shù)據(jù) 27
2.6.6 使用Beautiful Soup來解析HTML 文檔 27
第3 章 為數(shù)據(jù)科學(xué)設(shè)置Python 29
3.1 考慮現(xiàn)成的跨平臺的用于科學(xué)的分發(fā)包 30
3.1.1 獲取Continuum AnalyticsAnaconda 31
3.1.2 獲取Enthought CanopyExpress 32
3.1.3 獲取pythonxy 32
3.1.4 獲取WinPython 33
3.2 在Windows 上安裝Anaconda 33
3.3 在Linux 上安裝Anaconda 36
3.4 在Mac OS X 上安裝Anaconda 37
3.5 下載數(shù)據(jù)集和示例代碼 38
3.5.1 使用IPython Notebook 39
3.5.2 定義代碼倉庫 40
3.5.3 理解本書中所使用的數(shù)據(jù)集 45
第4 章 復(fù)習(xí)Python 基礎(chǔ) 47
4.1 使用數(shù)字和邏輯來工作 49
4.1.1 執(zhí)行變量賦值 50
4.1.2 做算術(shù)運算 50
4.1.3 使用布爾表達式來比較數(shù)據(jù) 52
4.2 創(chuàng)建和使用字符串 54
4.3 與日期交互 55
4.4 創(chuàng)建并使用函數(shù) 56
4.4.1 創(chuàng)建可復(fù)用函數(shù) 56
4.4.2 以各種不同的方式調(diào)用函數(shù) 58
4.5 使用條件和循環(huán)語句 61
4.5.1 使用if 語句做決策 61
4.5.2 使用嵌套決策在多個選項間做出選擇 62
4.5.3 使用for 執(zhí)行重復(fù)任務(wù) 63
4.5.4 使用while 語句 64
4.6 使用Sets、Lists 和Tuples來存儲數(shù)據(jù) 64
4.6.1 在set 上執(zhí)行操作 65
4.6.2 使用list 來工作 66
4.6.3 創(chuàng)建和使用Tuple 67
4.7 定義有用的迭代器 69
4.8 使用Dictionaries 來索引數(shù)據(jù) 70
第 2 部分 開始著手于數(shù)據(jù) 71
第5 章 使用真實數(shù)據(jù)工作 73
5.1 上傳、流化并采樣數(shù)據(jù) 74
5.1.1 把少量數(shù)據(jù)上傳至內(nèi)存 75
5.1.2 把大量數(shù)據(jù)流化放入內(nèi)存 76
5.1.3 采樣數(shù)據(jù) 77
5.2 以結(jié)構(gòu)化的平面文件形式來訪問數(shù)據(jù) 78
5.2.1 從文本文件中讀取 79
5.2.2 讀取CSV 定界的格式 80
5.2.3 讀取Excel 和其他的微軟辦公文件 82
5.3 以非結(jié)構(gòu)化文件的形式來發(fā)送數(shù)據(jù) 83
5.4 管理來自關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù) 86
5.5 與來自NoSQL 數(shù)據(jù)庫中的數(shù)據(jù)進行交互 87
5.6 訪問來自Web 的數(shù)據(jù) 88
第6 章 整理你的數(shù)據(jù) 92
6.1 兼顧NumPy 和pandas 93
6.1.1 知道什么時候使用NumPy 93
6.1.2 知道什么時候使用pandas 93
6.2 驗證你的數(shù)據(jù) 95
6.2.1 了解你的數(shù)據(jù)中有什么 95
6.2.2 去重 96
6.2.3 創(chuàng)建數(shù)據(jù)地圖和數(shù)據(jù)規(guī)劃 97
6.3 處理分類變量 99
6.3.1 創(chuàng)建分類變量 100
6.3.2 重命名層級 102
6.3.3 組合層級 102
6.4 處理你數(shù)據(jù)中的日期 104
6.4.1 格式化日期和時間值 104
6.4.2 使用正確的時間轉(zhuǎn)換 105
6.5 處理丟失值 106
6.5.1 尋找丟失的數(shù)據(jù) 106
6.5.2 為丟失項編碼 107
6.5.3 為丟失數(shù)據(jù)估值 108
6.6 交叉分析:過濾并選取數(shù)據(jù) 109
6.6.1 切分行 109
6.6.2 切分列 110
6.6.3 切塊 110
6.7 連接和變換 111
6.7.1 增加新的實例和變量 112
6.7.2 移除數(shù)據(jù) 113
6.7.3 排序和攪亂 114
6.8 在任何層次聚合數(shù)據(jù) 115
第7 章 數(shù)據(jù)整形 117
7.1 使用HTML 頁面來工作 118
7.1.1 解析XML 和HTML 118
7.1.2 使用XPath 來抽取數(shù)據(jù) 119
7.2 使用原始文本來工作 120
7.2.1 處理Unicode 碼 120
7.2.2 詞干提取和停止詞移除 122
7.2.3 介紹正則表達式 124
7.3 使用并超越詞袋模型 126
7.3.1 理解詞袋模型 127
7.3.2 用n 元文法模型(n-grams)工作 128
7.3.3 實現(xiàn)TF-IDF 變換 130
7.4 使用圖數(shù)據(jù)來工作 131
7.4.1 理解鄰接矩陣 131
7.4.2 使用NetworkX 基礎(chǔ) 132
第8 章 將你所知的付諸于實踐 134
8.1 將問題和數(shù)據(jù)置于上下文中去理解 135
8.1.1 評估數(shù)據(jù)科學(xué)問題 136
8.1.2 研究方案 136
8.1.3 構(gòu)想出假設(shè) 137
8.1.4 準備數(shù)據(jù) 138
8.2 思考創(chuàng)建特征的藝術(shù) 138
8.2.1 定義特征創(chuàng)建 138
8.2.2 組合變量 139
8.2.3 理解分級和離散化 140
8.2.4 使用指示變量 140
8.2.5 變換分布 140
8.3 在數(shù)組上執(zhí)行運算 141
8.3.1 使用向量化 141
8.3.2 在向量和矩陣上執(zhí)行簡單的算法 142
8.3.3 執(zhí)行矩陣向量乘法 142
8.3.4 執(zhí)行矩陣乘法 143
第3 部分 把不可見的東西可視化 145
第9 章 獲得MatPlotLib 的速成課程 147
9.1 開始使用圖表 148
9.1.1 定義標圖 148
9.1.2 畫多線條和多標圖 149
9.1.3 保存你的工作 149
9.2 設(shè)置軸、刻度和網(wǎng)格 150
9.2.1 得到軸 151
9.2.2 格式化軸 151
9.2.3 添加網(wǎng)格 152
9.3 定義線條外觀 153
9.3.1 使用線條樣式工作 153
9.3.2 使用顏色 155
9.3.3 添加標記 155
9.4 使用標簽、注釋和圖例 157
9.4.1 添加標簽 158
9.4.2 注釋圖表 158
9.4.3 創(chuàng)建圖例 159
第 10 章 將數(shù)據(jù)可視化 161
10.1 選擇合適的圖表 162
10.1.1 用餅圖展示整體的局部組成 162
10.1.2 用柱狀圖來創(chuàng)建比較 163
10.1.3 用直方圖來展示分布 164
10.1.4 使用箱線圖來描繪組 166
10.1.5 使用散點圖看數(shù)據(jù)模式 167
10.2 創(chuàng)建高級的散點圖 168
10.2.1 描繪組群 168
10.2.2 展示關(guān)聯(lián) 169
10.3 標繪時間序列 171
10.3.1 在軸上表示時間 171
10.3.2 標繪隨時間的趨勢 172
10.4 標繪地理數(shù)據(jù) 174
10.5 把圖做可視化 176
10.5.1 開發(fā)無向圖 176
10.5.2 開發(fā)有向圖 177
第 11 章 理解工具 180
11.1 使用IPython 控制臺 181
11.1.1 與屏幕文本交互 181
11.1.2 改變窗口外觀 182
11.1.3 獲取Python 幫助 184
11.1.4 獲取IPython 幫助 185
11.1.5 使用魔法函數(shù) 186
11.1.6 探索對象 187
11.2 使用IPython Notebook 188
11.2.1 使用樣式來工作 189
11.2.2 重啟內(nèi)核 190
11.2.3 恢復(fù)檢查點 191
11.3 執(zhí)行多媒體和圖像整合 192
11.3.1 嵌入標圖和其他圖片 192
11.3.2 從在線網(wǎng)站上加載例子 193
11.3.3 獲取在線圖像和多媒體 193
第4 部分 處理數(shù)據(jù) 195
第 12 章 拓展Python 的能力 197
12.1 玩轉(zhuǎn)Scikit-learn 198
12.1.1 理解Scikit-learn 中的類 198
12.1.2 為數(shù)據(jù)科學(xué)定義應(yīng)用 199
12.2 執(zhí)行散列法 202
12.2.1 使用散列函數(shù) 202
12.2.2 演示散列法 203
12.2.3 使用確定性選擇來工作 205
12.3 考慮計時和性能 206
12.3.1 用timeit 來做基線檢測 207
12.3.2 使用內(nèi)存剖析器來工作 209
12.4 并行運行 210
12.4.1 執(zhí)行多核并行化 211
12.4.2 演示多核處理 212
第 13 章 探索數(shù)據(jù)分析 214
13.1 EDA 方法 215
13.2 為Numeric 數(shù)據(jù)定義描述性的統(tǒng)計量 216
13.2.1 度量集中化趨勢 217
13.2.2 測量方差和區(qū)間 217
13.2.3 使用分位數(shù)來工作 218
13.2.4 定義正態(tài)化度量 219
13.3 為分類型數(shù)據(jù)計數(shù) 220
13.3.1 理解頻率 220
13.3.2 創(chuàng)建列聯(lián)表 221
13.4 為EDA 創(chuàng)建應(yīng)用可視化 222
13.4.1 檢查箱線圖 222
13.4.2 在箱線圖之后執(zhí)行t檢驗 223
13.4.3 觀察平行坐標 224
13.4.4 為分布作圖 225
13.4.5 標繪散點圖 226
13.5 理解相關(guān)性 228
13.5.1 使用協(xié)方差和關(guān)聯(lián)性 228
13.5.2 使用非參數(shù)相關(guān)性 230
13.5.3 考慮表格的卡方檢驗 230
13.6 修改數(shù)據(jù)分布 231
13.6.1 使用正態(tài)分布 232
13.6.2 創(chuàng)建Z 評分標準化 232
13.6.3 轉(zhuǎn)換其他的著名分布 232
第 14 章 降維 234
14.1 理解SVD 235
14.1.1 尋求降維 236
14.1.2 使用SVD 來測量不可見的信息 237
14.2 執(zhí)行因子和主成分分析 238
14.2.1 考慮心理測量模型 239
14.2.2 尋找隱因子 239
14.2.3 使用成分,而不是因子 240
14.2.4 達成降維 240
14.3 理解一些應(yīng)用 241
14.3.1 用PCA 來識別人臉 241
14.3.2 用NMF 來提取主題 244
14.3.3 推薦電影 246
第 15 章 聚類 249
15.1 用K-means 聚類 251
15.1.1 理解基于質(zhì)心的算法 251
15.1.2 創(chuàng)建使用圖像數(shù)據(jù)的例子 253
15.1.3 尋找優(yōu)化解決方案 254
15.1.4 大數(shù)據(jù)聚類 257
15.2 執(zhí)行層次聚類 258
15.3 超越圓形簇:DBScan 261
第 16 章 檢測數(shù)據(jù)中的異常點 265
16.1 考慮異常檢測 266
16.1.1 找出更多可能出錯的地方 267
16.1.2 理解異常數(shù)據(jù)和新奇的數(shù)據(jù) 268
16.2 檢驗簡單的單變量法 268
16.2.1 利用高斯分布 270
16.2.2 做出假設(shè)并檢驗 270
16.3 開發(fā)多變量方法 271
16.3.1 使用主成分分析 272
16.3.2 使用聚類分析 273
16.3.3 使用SVM 將異常檢測自動化 274
第5 部分 從數(shù)據(jù)中學(xué)習(xí) 275
第 17 章 探索4 個簡單又有效的算法 277
17.1 猜測數(shù)字:線性回歸 277
17.1.1 定義線性模型家族 278
17.1.2 使用更多變量 279
17.1.3 理解限制和問題 280
17.2 轉(zhuǎn)移到邏輯回歸 281
17.2.1 應(yīng)用邏輯回歸 281
17.2.2 考慮有更多類的時候 282
17.3 讓事情像樸素貝葉斯(Na veBayes)一樣簡單 283
17.3.1 發(fā)現(xiàn)樸素貝葉斯并不是那么樸素 285
17.3.2 預(yù)測文本分類 286
17.4 使用最近鄰來延遲學(xué)習(xí) 287
17.4.1 觀察鄰居之后做預(yù)測 288
17.4.2 明智地選擇k 參數(shù) 290
第 18 章 執(zhí)行交叉驗證、選擇和優(yōu)化 291
18.1 關(guān)于擬合模型問題的思考 292
18.1.1 理解偏差和方差 293
18.1.2 定義挑選模型的策略 294
18.1.3 劃分訓(xùn)練集和測試集 296
18.2 交叉驗證 299
18.2.1 使用k 折交叉驗證 299
18.2.2 復(fù)雜數(shù)據(jù)的分層采樣 300
18.3 像專業(yè)人士那樣選擇變量 302
18.3.1 通過單變量度量來選擇 302
18.3.2 使用貪婪搜索 303
18.4 提升你的超參數(shù) 304
18.4.1 實現(xiàn)網(wǎng)格搜索 305
18.4.2 嘗試隨機化搜索 309
第 19 章 用線性和非線性技巧增加復(fù)雜性 311
19.1 使用非線性變換 312
19.1.1 執(zhí)行變量變換 312
19.1.2 創(chuàng)建變量間的相互作用 314
19.2 正則化線性模型 317
19.2.1 依靠Ridge 回歸(L2) 318
19.2.2 使用Lasso(L1) 319
19.2.3 利用規(guī)范化 319
19.2.4 組合L1 和L2:Elasticnet 320
19.3 逐塊與大數(shù)據(jù)戰(zhàn)斗 320
19.3.1 當(dāng)數(shù)據(jù)過多時來做決定 321
19.3.2 實現(xiàn)隨機梯度下降 321
19.4 理解支持向量機 323
19.4.1 依靠一種計算方法 324
19.4.2 修正很多新參數(shù) 327
19.4.3 用SVC 分類 328
19.4.4 走向非線性是簡單的 333
19.4.5 用SVR 來執(zhí)行回歸 334
19.4.6 用SVM 創(chuàng)建隨機(stochastic)解決方案 336
第 20 章 理解多數(shù)的力量 340
20.1 以樸素的決策樹開始 341
20.1.1 理解決策樹 341
20.1.2 創(chuàng)建分類和回歸樹 343
20.2 讓機器學(xué)習(xí)得以應(yīng)用 346
20.2.1 使用隨機森林分類器來工作 348
20.2.2 使用隨機森林回歸器來工作 349
20.2.3 優(yōu)化隨機森林 349
20.3 Boosting 預(yù)測 351
20.3.1 了解多個弱預(yù)測器將勝出 351
20.3.2 創(chuàng)建梯度推進分類器 352
20.3.3 創(chuàng)建梯度推進回歸器 353
20.3.4 使用GBM 超參數(shù) 353
第6 部分 十大系列專題 355
第 21 章 10 個必不可少的數(shù)據(jù)科學(xué)資源集 357
21.1 用數(shù)據(jù)科學(xué)周刊獲得深入了解 358
21.2 在U Climb Higher 上獲取資源列表 358
21.3 用KDnuggets 來獲得一個良好的起點 359
21.4 訪問數(shù)據(jù)科學(xué)中心上的巨型資源列表 359
21.5 從專家處獲得開源數(shù)據(jù)科學(xué)情報 360
21.6 用Quora 來定位到免費的學(xué)習(xí)資源 360
21.7 在Conductrics 上接收高級主題的幫助 361
21.8 從立志數(shù)據(jù)科學(xué)家中學(xué)習(xí)新技巧 361
21.9 在AnalyticBridge 上尋找數(shù)據(jù)智能和分析資源 362
21.10 專注于Jonathan Bower的開發(fā)者資源 362
第 22 章 10 個你應(yīng)該接受的挑戰(zhàn) 364
22.1 迎接數(shù)據(jù)科學(xué)倫敦+Scikit-learn 的挑戰(zhàn) 365
22.2 預(yù)測泰坦尼克號上的幸存者 366
22.3 尋找滿足你需求的Kaggle競賽 366
22.4 磨練你的過擬合策略 367
22.5 涉獵MovieLens 數(shù)據(jù)集 367
22.6 清除垃圾郵件 368
22.7 使用手寫信息工作 369
22.8 使用圖片工作 370
22.9 分析Amazon.com 審查 371
22.10 與巨圖交互 371

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號