阿里云天池大賽賽題解析：機(jī)器學(xué)習(xí)篇

定　價(jià)：￥109.00

作　者：	天池平臺(tái) 著
出版社：	電子工業(yè)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購(gòu)買(mǎi)這本書(shū)可以去

京東 (￥104.60)

ISBN：	9787121393501	出版時(shí)間：	2020-09-01	包裝：	平裝
開(kāi)本：	16開(kāi)	頁(yè)數(shù)：	376	字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　《阿里云天池大賽賽題解析——機(jī)器學(xué)習(xí)篇》聚焦機(jī)器學(xué)習(xí)算法建模及相關(guān)技術(shù)，以工業(yè)蒸汽量預(yù)測(cè)、天貓用戶(hù)重復(fù)購(gòu)買(mǎi)預(yù)測(cè)、O2O優(yōu)惠券預(yù)測(cè)和阿里云安全惡意程序檢測(cè)等四個(gè)天池經(jīng)典賽題作為實(shí)戰(zhàn)案例，針對(duì)實(shí)際賽題按照賽題理解、數(shù)據(jù)探索、特征工程、模型訓(xùn)練、模型驗(yàn)證、特征優(yōu)化、模型融合等步驟，將賽題的解決方案從0到1層層拆解、詳細(xì)說(shuō)明，在展現(xiàn)專(zhuān)業(yè)選手解題過(guò)程的同時(shí)，配以豐富的相關(guān)技術(shù)知識(shí)作為補(bǔ)充。《阿里云天池大賽賽題解析——機(jī)器學(xué)習(xí)篇》從經(jīng)典商業(yè)案例出發(fā)，內(nèi)容由淺入深、層層遞進(jìn)，既可以作為專(zhuān)業(yè)開(kāi)發(fā)者的參考用書(shū)，也可以作為參賽新手研讀專(zhuān)業(yè)算法的實(shí)戰(zhàn)手冊(cè)。

作者簡(jiǎn)介

　　本書(shū)由阿里云天池平臺(tái)編寫(xiě)。天池平臺(tái)已經(jīng)舉辦了超過(guò) 200 場(chǎng)來(lái)自真實(shí)業(yè)務(wù)場(chǎng)景的競(jìng)賽，每場(chǎng)賽事沉淀的課題和數(shù)據(jù)集，將在天池保留和開(kāi)放。天池平臺(tái)已成為在校學(xué)生踏入職場(chǎng)前的虛擬實(shí)踐基地，也成為聚集40萬(wàn)數(shù)據(jù)人才，孵化2000余家數(shù)據(jù)創(chuàng)新工作室的數(shù)據(jù)智能大社區(qū)。

圖書(shū)目錄

賽題一工業(yè)蒸汽量預(yù)測(cè)
1 賽題理解 2
1.1 賽題背景 2
1.2 賽題目標(biāo) 2
1.3 數(shù)據(jù)概覽 2
1.4 評(píng)估指標(biāo) 3
1.5 賽題模型 4
2 數(shù)據(jù)探索 6
2.1 理論知識(shí) 6
2.1.1 變量識(shí)別 6
2.1.2 變量分析 6
2.1.3 缺失值處理 10
2.1.4 異常值處理 11
2.1.5 變量轉(zhuǎn)換 14
2.1.6 新變量生成 15
2.2 賽題數(shù)據(jù)探索 16
2.2.1 導(dǎo)入工具包 16
2.2.2 讀取數(shù)據(jù) 16
2.2.3 查看數(shù)據(jù) 16
2.2.4 可視化數(shù)據(jù)分布 18
2.2.5 查看特征變量的相關(guān)性 26
3 特征工程 33
3.1 特征工程的重要性和處理 33
3.2 數(shù)據(jù)預(yù)處理和特征處理 33
3.2.1 數(shù)據(jù)預(yù)處理 33
3.2.2 特征處理 34
3.3 特征降維 38
3.3.1 特征選擇 39
3.3.2 線性降維 44
3.4 賽題特征工程 45
3.4.1 異常值分析 45
3.4.2 最大值和最小值的
歸一化 46
3.4.3 查看數(shù)據(jù)分布 47
3.4.4 特征相關(guān)性 48
3.4.5 特征降維 48
3.4.6 多重共線性分析 49
3.4.7 PCA處理 50
4 模型訓(xùn)練 52
4.1 回歸及相關(guān)模型 52
4.1.1 回歸的概念 52
4.1.2 回歸模型訓(xùn)練和預(yù)測(cè) 52
4.1.3 線性回歸模型 52
4.1.4 K近鄰回歸模型 54
4.1.5 決策樹(shù)回歸模型 55
4.1.6 集成學(xué)習(xí)回歸模型 58
4.2 賽題模型訓(xùn)練 61
4.2.1 導(dǎo)入相關(guān)庫(kù) 61
4.2.2 切分?jǐn)?shù)據(jù) 62
4.2.3 多元線性回歸 62
4.2.4 K近鄰回歸 62
4.2.5 隨機(jī)森林回歸 63
4.2.6 LGB模型回歸 63
5 模型驗(yàn)證 64
5.1 模型評(píng)估的概念和方法 64
5.1.1 欠擬合與過(guò)擬合 64
5.1.2 模型的泛化與正則化 68
5.1.3 回歸模型的評(píng)估指標(biāo)和
調(diào)用方法 70
5.1.4 交叉驗(yàn)證 72
5.2 模型調(diào)參 75
5.2.1 調(diào)參 75
5.2.2 網(wǎng)格搜索 76
5.2.3 學(xué)習(xí)曲線 77
5.2.4 驗(yàn)證曲線 78
5.3 賽題模型驗(yàn)證和調(diào)參 78
5.3.1 模型過(guò)擬合與欠擬合 78
5.3.2 模型正則化 81
5.3.3 模型交叉驗(yàn)證 82
5.3.4 模型超參空間及調(diào)參 85
5.3.5 學(xué)習(xí)曲線和驗(yàn)證曲線 89
6 特征優(yōu)化 93
6.1 特征優(yōu)化的方法 93
6.1.1 合成特征 93
6.1.2 特征的簡(jiǎn)單變換 93
6.1.3 用決策樹(shù)創(chuàng)造新特征 94
6.1.4 特征組合 94
6.2 賽題特征優(yōu)化 96
6.2.1 導(dǎo)入數(shù)據(jù) 96
6.2.2 特征構(gòu)造方法 96
6.2.3 特征構(gòu)造函數(shù) 96
6.2.4 特征降維處理 96
6.2.5 模型訓(xùn)練和評(píng)估 97
7 模型融合 100
7.1 模型優(yōu)化 100
7.1.1 模型學(xué)習(xí)曲線 100
7.1.2 模型融合提升技術(shù) 100
7.1.3 預(yù)測(cè)結(jié)果融合策略 102
7.1.4 其他提升方法 105
7.2 賽題模型融合 106
7.2.1 導(dǎo)入工具包 106
7.2.2 獲取訓(xùn)練數(shù)據(jù)和測(cè)試
數(shù)據(jù) 106
7.2.3 模型評(píng)價(jià)函數(shù) 107
7.2.4 采用網(wǎng)格搜索訓(xùn)練
模型 107
7.2.5 單一模型預(yù)測(cè)效果 109
7.2.6 模型融合Boosting方法 115
7.2.7 多模型預(yù)測(cè)Bagging
方法 118
7.2.8 多模型融合Stacking
方法 119
7.2.9 模型驗(yàn)證 127
7.2.10 使用lr_reg和lgb_reg
進(jìn)行融合預(yù)測(cè) 127

賽題二天貓用戶(hù)重復(fù)購(gòu)買(mǎi)預(yù)測(cè)
1 賽題理解 130
1.1 賽題背景 130
1.2 數(shù)據(jù)介紹 131
1.3 評(píng)估指標(biāo) 133
1.4 賽題分析 134
2 數(shù)據(jù)探索 137
2.1 理論知識(shí) 137
2.1.1 缺失數(shù)據(jù)處理 137
2.1.2 不均衡樣本 138
2.1.3 常見(jiàn)的數(shù)據(jù)分布 141
2.2 賽題數(shù)據(jù)探索 144
2.2.1 導(dǎo)入工具包 145
2.2.2 讀取數(shù)據(jù) 145
2.2.3 數(shù)據(jù)集樣例查看 145
2.2.4 查看數(shù)據(jù)類(lèi)型和數(shù)據(jù)
大小 146
2.2.5 查看缺失值 147
2.2.6 觀察數(shù)據(jù)分布 148
2.2.7 探查影響復(fù)購(gòu)的各種
因素 150
3 特征工程 155
3.1 特征工程介紹 155
3.1.1 特征工程的概念 155
3.1.2 特征歸一化 155
3.1.3 類(lèi)別型特征的轉(zhuǎn)換 156
3.1.4 高維組合特征的處理 156
3.1.5 組合特征 157
3.1.6 文本表示模型 157
3.2 賽題特征工程思路 158
3.3 賽題特征工程構(gòu)造 160
3.3.1 工具導(dǎo)入 160
3.3.2 數(shù)據(jù)讀取 160
3.3.3 對(duì)數(shù)據(jù)進(jìn)行內(nèi)存壓縮 161
3.3.4 數(shù)據(jù)處理 163
3.3.5 定義特征統(tǒng)計(jì)函數(shù) 164
3.3.6 提取統(tǒng)計(jì)特征 166
3.3.7 利用Countvector和
TF-IDF提取特征 170
3.3.8 嵌入特征 170

3.3.9 Stacking分類(lèi)特征 171
4 模型訓(xùn)練 179
4.1 分類(lèi)的概念 179
4.2 分類(lèi)相關(guān)模型 179
4.2.1 邏輯回歸分類(lèi)模型 179
4.2.2 K近鄰分類(lèi)模型 180
4.2.3 高斯貝葉斯分類(lèi)模型 182
4.2.4 決策樹(shù)分類(lèi)模型 182
4.2.5 集成學(xué)習(xí)分類(lèi)模型 183
5 模型驗(yàn)證 186
5.1 模型驗(yàn)證指標(biāo) 186
5.1.1 準(zhǔn)確度 186
5.1.2 查準(zhǔn)率和查全率 188
5.1.3 F1值 189
5.1.4 分類(lèi)報(bào)告 189
5.1.5 混淆矩陣 189
5.1.6 ROC 190
5.1.7 AUC曲線 190
5.2 賽題模型驗(yàn)證和評(píng)估 190
5.2.1 基礎(chǔ)代碼 190
5.2.2 簡(jiǎn)單驗(yàn)證 191
5.2.3 設(shè)置交叉驗(yàn)證方式 192
5.2.4 模型調(diào)參 194
5.2.5 混淆矩陣 195
5.2.6 不同的分類(lèi)模型 198
5.2.7 自己封裝模型 205
6 特征優(yōu)化 211
6.1 特征選擇技巧 211
6.2 賽題特征優(yōu)化 213
6.2.1 基礎(chǔ)代碼 213
6.2.2 缺失值補(bǔ)全 213
6.2.3 特征選擇 213
賽題三 O2O優(yōu)惠券預(yù)測(cè)
1 賽題理解 222
1.1 賽題介紹 222
1.2 賽題分析 223
2 數(shù)據(jù)探索 225
2.1 理論知識(shí) 225
2.1.1 數(shù)據(jù)探索的定義 225
2.1.2 數(shù)據(jù)探索的目的 226
2.1.3 相關(guān)Python包 226
2.2 初步的數(shù)據(jù)探索 226
2.2.1 數(shù)據(jù)讀取 226
2.2.2 數(shù)據(jù)查看 227
2.2.3 數(shù)據(jù)邊界探索 231
2.2.4 訓(xùn)練集與測(cè)試集的
相關(guān)性 232
2.2.5 數(shù)據(jù)統(tǒng)計(jì) 236
2.3 數(shù)據(jù)分布 238
2.3.1 對(duì)文本數(shù)據(jù)的數(shù)值化
處理 238
2.3.2 數(shù)據(jù)分布可視化 242
3 特征工程 246
3.1 賽題特征工程思路 246
3.2 賽題特征構(gòu)建 248
3.2.1 工具函數(shù) 248
3.2.2 特征群生成函數(shù) 250
3.2.3 特征集成函數(shù) 256
3.2.4 特征輸出 257
3.3 對(duì)特征進(jìn)行探索 260
3.3.1 特征讀取函數(shù) 260
3.3.2 特征總覽 261
3.3.3 查看特征的分布 262
3.3.4 特征相關(guān)性分析 265
4 模型訓(xùn)練 266
4.1 模型訓(xùn)練與評(píng)估 266
4.2 不同算法模型的性能對(duì)比 271
4.2.1 樸素貝葉斯 271
4.2.2 邏輯回歸 271
4.2.3 決策樹(shù) 272
4.2.4 隨機(jī)森林 272
4.2.5 XGBoost 273
4.2.6 LightGBM 274
4.2.7 不同特征效果對(duì)比 274
4.3 結(jié)果輸出 274
5 模型驗(yàn)證 276
5.1 評(píng)估指標(biāo) 276
5.2 交叉驗(yàn)證 276
5.3 模型比較 279
5.4 驗(yàn)證結(jié)果可視化 282
5.5 結(jié)果分析 289
5.6 模型調(diào)參 290
5.7 實(shí)際方案 292
6 提交結(jié)果 299
6.1 整合及輸出結(jié)果 299
6.2 結(jié)果提交及線上驗(yàn)證 302
賽題四阿里云安全惡意程序檢測(cè)
1 賽題理解 306
1.1 賽題介紹 306
1.2 賽題分析 307
2 數(shù)據(jù)探索 310
2.1 訓(xùn)練集數(shù)據(jù)探索 310
2.1.1 數(shù)據(jù)特征類(lèi)型 310
2.1.2 數(shù)據(jù)分布 311
2.1.3 缺失值 312
2.1.4 異常值 312
2.1.5 標(biāo)簽分布 313
2.2 測(cè)試集數(shù)據(jù)探索 314
2.2.1 數(shù)據(jù)信息 314
2.2.2 缺失值 315
2.2.3 數(shù)據(jù)分布 315
2.2.4 異常值 315
2.3 數(shù)據(jù)集聯(lián)合分析 316
2.3.1 file_id分析 316
2.3.2 API分析 317
3 特征工程與基線模型 318
3.1 特征工程概述 318
3.1.1 特征工程介紹 318
3.1.2 構(gòu)造特征 318
3.1.3 特征選擇 319
3.2 構(gòu)造線下驗(yàn)證集 319
3.2.1 評(píng)估穿越 319
3.2.2 訓(xùn)練集和測(cè)試集的特征
差異性 320
3.2.3 訓(xùn)練集和測(cè)試集的分布
差異性 320
3.3 基線模型 320
3.3.1 數(shù)據(jù)讀取 320
3.3.2 特征工程 321

3.3.3 基線構(gòu)建 322
3.3.4 特征重要性分析 324
3.3.5 模型測(cè)試 325
4 高階數(shù)據(jù)探索 326
4.1 變量分析 326
4.2 高階數(shù)據(jù)探索實(shí)戰(zhàn) 329
4.2.1 數(shù)據(jù)讀取 329
4.2.2 多變量交叉探索 329
5 特征工程進(jìn)階與方案優(yōu)化 343
5.1 pivot特征構(gòu)建 343
5.1.1 pivot特征 343
5.1.2 pivot特征構(gòu)建時(shí)間 343
5.1.3 pivot特征構(gòu)建細(xì)節(jié)和
特點(diǎn) 343
5.2 業(yè)務(wù)理解和結(jié)果分析 344
5.2.1 結(jié)合模型理解業(yè)務(wù) 344
5.2.2 多分類(lèi)問(wèn)題預(yù)測(cè)結(jié)果
分析 344
5.3 特征工程進(jìn)階實(shí)踐 344
5.3.1 特征工程基礎(chǔ)部分 344
5.3.2 特征工程進(jìn)階部分 348
5.3.3 基于LightGBM的模型
驗(yàn)證 349
5.3.4 模型結(jié)果分析 351
5.3.5 模型測(cè)試 354
6 優(yōu)化技巧與解決方案升級(jí) 355
6.1 優(yōu)化技巧：Python處理大數(shù)據(jù)
的技巧 355
6.1.1 內(nèi)存管理控制 355
6.1.2 加速數(shù)據(jù)處理的技巧 356
6.1.3 其他開(kāi)源工具包 356
6.2 深度學(xué)習(xí)解決方案：TextCNN
建模 358
6.2.1 問(wèn)題轉(zhuǎn)化 358
6.2.2 TextCNN建模 358
6.2.3 數(shù)據(jù)預(yù)處理 360
6.2.4 TextCNN網(wǎng)絡(luò)結(jié)構(gòu) 361
6.2.5 TextCNN訓(xùn)練和測(cè)試 362
6.2.6 結(jié)果提交 364
7 開(kāi)源方案學(xué)習(xí) 365