注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡(luò)軟件與程序設(shè)計Python大數(shù)據(jù)與機器學習實戰(zhàn)

Python大數(shù)據(jù)與機器學習實戰(zhàn)

Python大數(shù)據(jù)與機器學習實戰(zhàn)

定 價:¥119.00

作 者: 謝彥 著
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787121384257 出版時間: 2020-04-01 包裝: 平裝
開本: 16開 頁數(shù): 392 字數(shù):  

內(nèi)容簡介

  本書結(jié)合作者十余年軟件開發(fā)、系統(tǒng)架構(gòu)、算法實戰(zhàn)及培訓經(jīng)驗,致力于系統(tǒng)地闡釋Python大數(shù)據(jù)和機器學習技術(shù)。從數(shù)據(jù)的采集、存儲、清洗;到建立模型、統(tǒng)計分析;最終用前端程序呈現(xiàn)給用戶的數(shù)據(jù)展示;以及后臺的系統(tǒng)服務(wù)支持。結(jié)合了Python數(shù)據(jù)工具使用、算法原理、以及典型實例各個層面,希望讀者通過對本書的閱讀,少走彎路,以**的學習成本得到**的知識收益。

作者簡介

  謝彥,從事軟件開發(fā)和算法研發(fā)十余年,曾就職于聯(lián)想研究院、元心科技等公司。參與研發(fā)機頂盒、上網(wǎng)本、智能手機操作系統(tǒng),工作涉及上層應(yīng)用、集群構(gòu)建、圖形底層優(yōu)、語音合成與識別、數(shù)據(jù)挖掘、深度學習算法等。帶領(lǐng)團隊經(jīng)驗豐富,擅長團隊內(nèi)部人才培訓。個人開發(fā)的應(yīng)用“天琴語音閱讀器”用戶數(shù)達百萬量級,近兩年撰寫數(shù)據(jù)挖掘和機器學習文章百余篇,CSDN閱讀量100多萬人次。現(xiàn)就職于和興創(chuàng)聯(lián)健康科技有限公司,專注于醫(yī)療大數(shù)據(jù)應(yīng)用研發(fā)。作者的公眾號:算法學習分享。

圖書目錄

目 錄
第1章 Python大數(shù)據(jù)開發(fā)入門 1
1.1 大數(shù)據(jù)工程師必備技能 1
1.2 Python開發(fā)環(huán)境 5
1.2.1 Windows環(huán)境 5
1.2.2 Linux環(huán)境 7
1.2.3 Docker環(huán)境 10
1.3 Python開發(fā)工具 16
1.3.1 Python命令行環(huán)境 16
1.3.2 Jupyter環(huán)境 18
1.4 Python數(shù)據(jù)類型 23
1.4.1 數(shù)值 24
1.4.2 字符串 24
1.4.3 列表 25
1.4.4 元組 26
1.4.5 集合 26
1.4.6 字典 27
1.5 Python函數(shù)和類 27
1.5.1 定義和使用函數(shù) 28
1.5.2 lambda匿名函數(shù) 28
1.5.3 類和繼承 28
1.6 Python常用庫 29
1.6.1 Python內(nèi)置庫 29
1.6.2 Python圖形圖像處理 30
1.6.3 Python自然語言處理 31
1.6.4 Python數(shù)據(jù)分析和
處理 32
1.6.5 Python機器學習 33
1.7 Python技巧 34
1.7.1 Python程序調(diào)試 34
1.7.2 去掉警告信息 35
1.7.3 制作和導入模塊 36
1.7.4 異常處理 37
1.8 Python常見問題 38
第2章 科學計算Numpy 40
2.1 多維數(shù)組 40
2.1.1 創(chuàng)建數(shù)組 40
2.1.2 訪問數(shù)組 42
2.1.3 修改數(shù)組 43
2.2 數(shù)組元素運算 44
2.2.1 一元函數(shù) 44
2.2.2 二元函數(shù) 45
2.2.3 廣播 46
2.2.4 自定義ufunc函數(shù) 47
2.3 常用函數(shù) 48
2.3.1 分段函數(shù) 48
2.3.2 統(tǒng)計函數(shù) 49
2.3.3 組合與分割 51
2.3.4 矩陣與二維數(shù)組 52
2.3.5 其他常用函數(shù) 54
第3章 數(shù)據(jù)操作Pandas 55
3.1 數(shù)據(jù)對象 55
3.1.1 Series對象 55
3.1.2 DataFrame對象 57
3.1.3 Index對象 60
3.2 數(shù)據(jù)存取 63
3.2.1 訪問數(shù)據(jù)表元素 63
3.2.2 修改數(shù)據(jù)表元素 66
3.3 分組運算 68
3.3.1 分組 69
3.3.2 聚合 70
3.3.3 轉(zhuǎn)換 71
3.3.4 過濾 72
3.3.5 應(yīng)用 72
3.4 日期時間處理 73
3.4.1 Python日期時間處理 73
3.4.2 Pandas日期時間處理 75
3.4.3 時間序列操作 76
3.4.4 數(shù)據(jù)重排 84
第4章 數(shù)據(jù)可視化 86
4.1 Matplotlib繪圖庫 87
4.1.1 準備工作 87
4.1.2 散點圖與氣泡圖 88
4.1.3 線圖 90
4.1.4 柱圖 92
4.1.5 餅圖 95
4.1.6 箱線圖和小提琴圖 96
4.1.7 三維圖 97
4.1.8 Matplotlib繪圖區(qū)域 100
4.1.9 文字顯示問題 103
4.1.10 導出圖表 104
4.1.11 Matplotlib技巧 105
4.2 Seaborn高級數(shù)據(jù)可視化 107
4.2.1 準備工作 107
4.2.2 連續(xù)變量相關(guān)圖 108
4.2.3 分類變量圖 109
4.2.4 回歸圖 113
4.2.5 多圖組合 115
4.2.6 熱力圖 118
4.2.7 印刷品作圖 119
4.3 PyEcharts交互圖 119
4.3.1 ECharts 119
4.3.2 準備工作 120
4.3.3 繪制交互圖 120
4.3.4 在網(wǎng)頁中顯示圖 123
第5章 獲取數(shù)據(jù) 125
5.1 讀寫文件 126
5.1.1 讀寫文本文件 126
5.1.2 寫日志文件 127
5.1.3 讀寫XML文件 128
5.1.4 讀寫Json文件 130
5.1.5 讀寫CSV文件 131
5.1.6 讀寫PKL文件 132
5.1.7 讀寫HDF5文件 133
5.1.8 讀寫Excel文件 134
5.2 讀寫數(shù)據(jù)庫 135
5.2.1 數(shù)據(jù)庫基本操作 136
5.2.2 Python存取MySQL
數(shù)據(jù)庫 138
5.2.3 Python存取SQL Server
數(shù)據(jù)庫 140
5.2.4 Python存取Sqlite
數(shù)據(jù)庫 143
5.2.5 Python存取Dbase
數(shù)據(jù)庫 143
5.3 讀寫數(shù)據(jù)倉庫 144
5.3.1 讀取ElasticSearch
數(shù)據(jù) 144
5.3.2 讀取S3云存儲數(shù)據(jù) 146
5.3.3 讀取Hive數(shù)據(jù) 148
5.4 獲取網(wǎng)絡(luò)數(shù)據(jù) 151
5.4.1 從網(wǎng)絡(luò)接口讀取
數(shù)據(jù) 151
5.4.2 抓取網(wǎng)站數(shù)據(jù) 152
5.4.3 使用POST方法抓取
數(shù)據(jù) 153
5.4.4 轉(zhuǎn)換HTML文件 153
5.5 選擇數(shù)據(jù)存儲方式 154
第6章 數(shù)據(jù)預(yù)處理 155
6.1 數(shù)據(jù)類型識別與轉(zhuǎn)換 155
6.1.1 基本類型轉(zhuǎn)換 156
6.1.2 數(shù)據(jù)類型識別 157
6.2 數(shù)據(jù)清洗 158
6.2.1 缺失值處理 158
6.2.2 異常值處理 160
6.2.3 去重處理 162
6.3 數(shù)據(jù)歸約 163
6.3.1 經(jīng)驗篩選特征 163
6.3.2 統(tǒng)計學方法篩選
特征 163
6.3.3 模型篩選特征 164
6.3.4 數(shù)學方法降維 165
6.4 數(shù)據(jù)抽樣 166
6.4.1 簡單隨機抽樣 167
6.4.2 系統(tǒng)抽樣 168
6.4.3 分層抽樣 168
6.4.4 整群抽樣 168
6.5 數(shù)據(jù)組合 169
6.5.1 merge函數(shù) 169
6.5.2 concat函數(shù) 170
6.6 特征提取 171
6.6.1 數(shù)值型特征 171
6.6.2 分類型特征 171
6.6.3 字符型特征 172
第7章 數(shù)據(jù)分析 175
7.1 入門實例 175
7.2 假設(shè)檢驗 177
7.2.1 基本概念 177
7.2.2 假設(shè)檢驗的步驟 178
7.2.3 統(tǒng)計分析工具 178
7.3 參數(shù)檢驗與非參數(shù)檢驗 179
7.3.1 正態(tài)性檢驗 179
7.3.2 方差齊性檢驗 181
7.3.3 分析檢驗結(jié)果 182
7.4 T檢驗 182
7.4.1 單樣本T檢驗 182
7.4.2 獨立樣本T檢驗 183
7.4.3 配對樣本T檢驗 183
7.5 方差分析 184
7.6 秩和檢驗 185
7.7 卡方檢驗 186
7.8 相關(guān)性分析 187
7.8.1 圖形描述相關(guān)性 188
7.8.2 正態(tài)資料的相關(guān)
分析 189
7.8.3 非正態(tài)資料的相關(guān)
分析 190
7.9 變量分析 190
7.9.1 單變量分析 190
7.9.2 多變量分析 191
7.10 TableOne工具 193
7.11 統(tǒng)計方法總結(jié) 194
第8章 機器學習基礎(chǔ)知識 196
8.1 基本概念 196
8.1.1 深度學習、機器學習、
人工智能 197
8.1.2 有監(jiān)督學習、無監(jiān)督
學習、半監(jiān)督學習 197
8.1.3 訓練集、驗證集、
測試集 198
8.1.4 過擬合與欠擬合 198
8.1.5 常用術(shù)語 199
8.2 評價模型 199
8.2.1 方差、協(xié)方差、協(xié)
方差矩陣 200
8.2.2 距離與范數(shù) 204
8.2.3 回歸效果評估 207
8.2.4 分類效果評估 210
第9章 機器學習模型與工具 216
9.1 基于距離的算法 217
9.1.1 K近鄰算法 217
9.1.2 聚類算法 219
9.2 線性回歸與邏輯回歸 221
9.2.1 線性回歸 222
9.2.2 邏輯回歸 225
9.3 支持向量機 226
9.4 信息熵和決策樹 230
9.4.1 信息量和熵 231
9.4.2 決策樹 234
9.5 關(guān)聯(lián)規(guī)則 236
9.5.1 Apriori關(guān)聯(lián)規(guī)則 237
9.5.2 FP-Growth關(guān)聯(lián)
分析 240
9.6 貝葉斯模型 242
9.6.1 貝葉斯公式 242
9.6.2 樸素貝葉斯算法 244
9.6.3 貝葉斯網(wǎng)絡(luò) 248
9.7 隱馬爾可夫模型 250
9.8 集成算法 254
第10章 模型選擇與相關(guān)技術(shù) 259
10.1 數(shù)據(jù)準備與模型選擇 259
10.1.1 預(yù)處理 259
10.1.2 選擇模型 260
10.2 自動機器學習框架 263
10.2.1 框架原理 263
10.2.2 Auto-Sklearn 264
10.2.3 Auto-ML 266
10.2.4 Auto-Keras 267
10.3 自然語言處理 269
10.3.1 分詞工具 269
10.3.2 TF-IDF 271
10.4 建模相關(guān)技術(shù) 274
10.4.1 切分數(shù)據(jù)集與交叉
驗證 274
10.4.2 模型調(diào)參 276
10.4.3 學習曲線和驗證
曲線 279
10.4.4 保存模型 282
第11章 大數(shù)據(jù)競賽平臺 283
11.1 定義問題 283
11.1.1 強人工智能與弱
人工智能 284
11.1.2 Datathon競賽 285
11.2 算法競賽 286
11.2.1 大數(shù)據(jù)競賽平臺
優(yōu)勢 287
11.2.2 Kaggle大數(shù)據(jù)
平臺 288
11.2.3 實戰(zhàn)泰坦尼克號
幸存問題 288
11.2.4 國內(nèi)大數(shù)據(jù)平臺 294
11.2.5 賽題選擇 294
11.2.6 比賽注意事項 295
第12章 決策問題:幸福感挖掘 296
12.1 賽題解讀 296
12.2 模型初探 297
12.3 模型調(diào)優(yōu) 299
12.3.1 模型粗調(diào) 299
12.3.2 模型精調(diào) 300
12.4 模型輸出 305
12.4.1 顯示決策樹 305
12.4.2 特征重要性 306
12.5 XGBoost模型 307
12.5.1 XGBoost參數(shù)分析 307
12.5.2 XGBoost原理解析 308
12.5.3 XGBoost源碼分析 312
第13章 遷移學習:貓狗圖片分類 317
13.1 深度學習神經(jīng)網(wǎng)絡(luò) 317
13.1.1 深度學習 318
13.1.2 卷積神經(jīng)網(wǎng)絡(luò) 319
13.1.3 卷積神經(jīng)網(wǎng)絡(luò)
發(fā)展史 321
13.2 使用現(xiàn)有的神經(jīng)網(wǎng)絡(luò)模型 321
13.3 遷移學習 322
13.4 解決貓狗分類問題 323
13.4.1 數(shù)據(jù)及代碼結(jié)構(gòu) 323
13.4.2 提取特征 324
13.4.3 訓練模型和預(yù)測 325
13.4.4 訓練結(jié)果分析 326
13.4.5 代碼下載 327
第14章 圖像分割:識別圖中物體 328
14.1 Mask R-CNN算法 329
14.1.1 R-CNN 329
14.1.2 SPP Net 330
14.1.3 Fast R-CNN 330
14.1.4 Faster R-CNN 331
14.1.5 Mask R-CNN 332
14.2 Mask R-CNN源碼解析 332
14.2.1 安裝工具 332
14.2.2 源碼結(jié)構(gòu) 333
14.3 訓練模型與預(yù)測 334
14.3.1 制作訓練數(shù)據(jù) 335
14.3.2 訓練模型和預(yù)測 338
14.3.3 建模相關(guān)問題 344
第15章 時間序列分析 346
15.1 時序問題處理流程 346
15.1.1 分析問題 346
15.1.2 解決思路 347
15.2 趨勢分析工具ARIMA 349
15.2.1 相關(guān)概念 349
15.2.2 模型示例 353
15.3 傅里葉和小波變換 357
15.3.1 傅里葉變換 358
15.3.2 小波變換 360
15.4 Prophet時序模型 361
15.4.1 模型介紹 362
15.4.2 獲取數(shù)據(jù) 362
15.4.3 模型示例 363
第16章 自然語言處理:微博互動
預(yù)測 367
16.1 賽題分析 367
16.1.1 數(shù)據(jù)分析 368
16.1.2 評價函數(shù) 369
16.1.3 目標變量分布 370
16.1.4 發(fā)博用戶統(tǒng)計 371
16.1.5 特殊用戶分析 371
16.1.6 整體分析 372
16.2 中文分析 372
16.2.1 正則表達式 373
16.2.2 自動提取關(guān)鍵詞 376

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號