Python機(jī)器學(xué)習(xí)原理與算法實(shí)現(xiàn)

定　價：￥118.00

作　者：	楊維忠、張?zhí)?/td>
出版社：	清華大學(xué)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購買這本書可以去

ISBN：	9787302626114	出版時間：	2023-02-01	包裝：	平裝-膠訂
開本：	16開	頁數(shù)：		字?jǐn)?shù)：

內(nèi)容簡介

　　數(shù)字化轉(zhuǎn)型背景下，Python作為一門簡單、易學(xué)、速度快、免費(fèi)、開源的主流編程語言，廣泛應(yīng)用于大數(shù)據(jù)處理、人工智能、云計(jì)算等各個領(lǐng)域，是眾多高等院校學(xué)生的必修基礎(chǔ)課程，也是堪與Office辦公軟件應(yīng)用比肩的職場人士的必備技能。同時隨著數(shù)據(jù)存儲、數(shù)據(jù)處理等大數(shù)據(jù)技術(shù)的快速進(jìn)步，機(jī)器學(xué)習(xí)的各種算法在各行各業(yè)得以廣泛應(yīng)用，同樣成為高校師生、職場人士迎接數(shù)字化浪潮、與時俱進(jìn)提升專業(yè)技能的必修課程。本書將“Python課程學(xué)習(xí)”與“機(jī)器學(xué)習(xí)課程學(xué)習(xí)”有機(jī)結(jié)合，推動數(shù)字化人才的培養(yǎng)，提升人才的實(shí)踐應(yīng)用能力。全書內(nèi)容共17章。第1、2章介紹Python的入門知識和進(jìn)階知識；第3章介紹機(jī)器學(xué)習(xí)的概念及各種術(shù)語及評價標(biāo)準(zhǔn)；第4~10章介紹相對簡單的監(jiān)督式學(xué)習(xí)方法，包括線性回歸算法、二元Logistic回歸算法、多元Logistic回歸算法、判別分析算法、樸素貝葉斯算法、高維數(shù)據(jù)懲罰回歸算法、K近鄰算法；第11、12章介紹主成分分析算法、聚類分析算法兩種非監(jiān)督式學(xué)習(xí)算法；第13~15章介紹相對復(fù)雜的監(jiān)督式學(xué)習(xí)算法，包括決策樹算法和隨機(jī)森林算法、提升法兩種集成學(xué)習(xí)算法；第16、17章介紹支持向量機(jī)算法、神經(jīng)網(wǎng)絡(luò)算法兩種高級監(jiān)督式學(xué)習(xí)算法。本書可以作為經(jīng)濟(jì)學(xué)、管理學(xué)、統(tǒng)計(jì)學(xué)、金融學(xué)、社會學(xué)、醫(yī)學(xué)、電子商務(wù)等相關(guān)專業(yè)的學(xué)生學(xué)習(xí)Python或機(jī)器學(xué)習(xí)應(yīng)用的專業(yè)教材、參考書；也可以作為企事業(yè)單位數(shù)字化人才培養(yǎng)的教科書、工具書，還可以作為職場人士自學(xué)掌握Python機(jī)器學(xué)習(xí)應(yīng)用、提升數(shù)據(jù)挖掘分析能力進(jìn)而提高工作效能和改善績效水平的工具書。

作者簡介

　　楊維忠，山東大學(xué)經(jīng)濟(jì)學(xué)碩士，CPA，十年商業(yè)銀行工作經(jīng)歷，歷任運(yùn)營、風(fēng)控、營銷、內(nèi)控等多個職位，擅長商務(wù)建模，精通SPSS、Stata、EViews，編著有《SPSS數(shù)據(jù)挖掘與案例分析應(yīng)用實(shí)踐》《Stata統(tǒng)計(jì)分析與實(shí)驗(yàn)指導(dǎo)》等近十本暢銷書。張?zhí)穑綎|大學(xué)金融學(xué)博士生，金融風(fēng)險(xiǎn)領(lǐng)域研究專家，參與《地方金融運(yùn)行動態(tài)監(jiān)測及系統(tǒng)性風(fēng)險(xiǎn)預(yù)警研究》等多項(xiàng)重大項(xiàng)目，精通SPSS、Stata、R語言，編著有《SPSS統(tǒng)計(jì)分析與行業(yè)應(yīng)用案例詳解》《Stata統(tǒng)計(jì)分析與行業(yè)應(yīng)用案例詳解》等暢銷書。

圖書目錄

第1章 Python入門知識 1
1.1 Python簡介與本書的教學(xué)理念 1
1.2 Python的下載與安裝 2
1.2.1 下載Python（Anaconda平臺） 2
1.2.2 安裝Python（Anaconda平臺） 4
1.2.3 Anaconda Prompt（Anaconda3） 6
1.2.4 Spyder（Anaconda3）的介紹及偏好設(shè)置 7
1.2.5 Spyder（Anaconda3）窗口介紹 10
1.3 Python注釋、基本輸入與輸出 16
1.3.1 Python的注釋 16
1.3.2 print函數(shù) 17
1.3.3 input函數(shù) 17
1.4 Python變量和數(shù)據(jù)類型 18
1.4.1 Python的保留字與標(biāo)識符 18
1.4.2 Python的變量 19
1.4.3 Python的基本數(shù)據(jù)類型 20
1.4.4 Python的數(shù)據(jù)運(yùn)算符 23
1.5 Python序列 25
1.5.1 索引（Indexing） 26
1.5.2 切片（Slicing） 26
1.5.3 相加（Adding） 27
1.5.4 相乘（Multiplying） 28
1.5.5 元素檢查 28
1.5.6 與序列相關(guān)的內(nèi)置函數(shù) 28
1.6 Python列表 30
1.6.1 列表的基本操作 30
1.6.2 列表元素的基本操作 32
1.6.3 列表推導(dǎo)式 33
1.7 Python元組 34
1.7.1 元組的基本操作 34
1.7.2 元組元素的基本操作 35
1.7.3 元組推導(dǎo)式 36
1.8 Python字典 37
1.8.1 字典的基本操作 37
1.8.2 字典元素的基本操作 39
1.8.3 字典推導(dǎo)式 40
1.9 Python集合 41
1.10 Python字符串 42
1.11 習(xí)題 46
第2章 Python進(jìn)階知識 48
2.1 Python流程控制語句 48
2.1.1 選擇語句 48
2.1.2 循環(huán)語句 50
2.1.3 跳轉(zhuǎn)語句 52
2.2 Python函數(shù) 53
2.2.1 函數(shù)的創(chuàng)建和調(diào)用 53
2.2.2 參數(shù)的相關(guān)概念與操作 53
2.2.3 變量的作用域 56
2.3 Python模塊和包 58
2.3.1 模塊的創(chuàng)建和導(dǎo)入 58
2.3.2 包的創(chuàng)建和使用 61
2.4 Python numpy模塊中的數(shù)組 63
2.4.1 數(shù)組的創(chuàng)建 63
2.4.2 數(shù)組的計(jì)算 65
2.4.3 使用數(shù)組開展矩陣運(yùn)算 66
2.4.4 數(shù)組的排序、索引和切片 66
2.5 Python pandas模塊中的序列與數(shù)據(jù)框 67
2.5.1 序列的相關(guān)操作 67
2.5.2 數(shù)據(jù)框的相關(guān)操作 69
2.6 Python對象與類 74
2.6.1 類的定義 74
2.6.2 定義適用于類對象的方法 75
2.6.3 子類從父類繼承 76
2.7 Python數(shù)據(jù)讀取 76
2.7.1 讀取文本文件（CSV或者TXT文件） 77
2.7.2 讀取EXCEL數(shù)據(jù) 80
2.7.3 讀取SPSS數(shù)據(jù) 81
2.7.4 讀取Stata數(shù)據(jù) 82
2.8 Python數(shù)據(jù)檢索 83
2.9 Python數(shù)據(jù)缺失值處理 84
2.9.1 查看數(shù)據(jù)集中的缺失值 84
2.9.2 填充數(shù)據(jù)集中的缺失值 86
2.9.3 刪除數(shù)據(jù)集中的缺失值 89
2.10 Python數(shù)據(jù)重復(fù)值處理 91
2.10.1 查看數(shù)據(jù)集中的重復(fù)值 91
2.10.2 刪除數(shù)據(jù)集中的重復(fù)值 92
2.11 Python數(shù)據(jù)行列處理 94
2.11.1 刪除變量列、樣本行 94
2.11.2 更改變量列名稱、調(diào)整變量列順序 95
2.11.3 改變列的數(shù)據(jù)格式 96
2.11.4 多列轉(zhuǎn)換 96
2.11.5 數(shù)據(jù)百分比格式轉(zhuǎn)換 97
2.12 習(xí)題 98
第3章機(jī)器學(xué)習(xí)介紹 99
3.1 機(jī)器學(xué)習(xí)概述 99
3.2 機(jī)器學(xué)習(xí)術(shù)語 100
3.3 機(jī)器學(xué)習(xí)分類 101
3.4 誤差、泛化、過擬合與欠擬合 102
3.5 偏差、方差與噪聲 103
3.5.1 偏差 103
3.5.2 方差 103
3.5.3 噪聲 103
3.5.4 誤差與偏差、方差、噪聲的關(guān)系 104
3.5.5 偏差與方差的權(quán)衡 104
3.6 性能量度 105
3.6.1 “回歸問題監(jiān)督式學(xué)習(xí)”的性能量度 105
3.6.2 “分類問題監(jiān)督式學(xué)習(xí)”的性能量度 106
3.7 模型評估 111
3.7.1 驗(yàn)證集法 111
3.7.2 K折交叉驗(yàn)證 112
3.7.3 自助法 113
3.8 機(jī)器學(xué)習(xí)項(xiàng)目流程 114
3.9 習(xí)題 118
第4章線性回歸算法 119
4.1 線性回歸算法的基本原理 119
4.1.1 線性回歸算法的概念及數(shù)學(xué)解釋 119
4.1.2 線性回歸算法的優(yōu)缺點(diǎn) 120
4.2 數(shù)據(jù)準(zhǔn)備 121
4.2.1 導(dǎo)入分析所需要的模塊和函數(shù) 121
4.2.2 數(shù)據(jù)讀取及觀察 122
4.3 描述性分析 123
4.4 圖形繪制 125
4.4.1 直方圖 125
4.4.2 密度圖 127
4.4.3 箱圖 128
4.4.4 小提琴圖 128
4.4.5 正態(tài)QQ圖 129
4.4.6 散點(diǎn)圖和線圖 130
4.4.7 熱力圖 131
4.4.8 回歸擬合圖 132
4.4.9 聯(lián)合分布圖 132
4.5 正態(tài)性檢驗(yàn) 133
4.5.1 Shapiro-Wilk test檢驗(yàn) 133
4.5.2 kstest檢驗(yàn) 134
4.6 相關(guān)性分析 135
4.7 使用statsmodels進(jìn)行線性回歸 137
4.7.1 使用 smf 進(jìn)行線性回歸 137
4.7.2 多重共線性檢驗(yàn) 139
4.7.3 解決多重共線性問題 140
4.7.4 繪制擬合回歸平面 141
4.8 使用sklearn進(jìn)行線性回歸 142
4.8.1 使用驗(yàn)證集法進(jìn)行模型擬合 142
4.8.2 更換隨機(jī)數(shù)種子，使用驗(yàn)證集法進(jìn)行模型擬合 143
4.8.3 使用10折交叉驗(yàn)證法進(jìn)行模型擬合 143
4.8.4 使用10折重復(fù)10次交叉驗(yàn)證法進(jìn)行模型擬合 144
4.8.5 使用留一交叉驗(yàn)證法進(jìn)行模型擬合 144
4.9 習(xí)題 145
第5章二元Logistic回歸算法 147
5.1 二元Logistic回歸算法的基本原理 147
5.2 數(shù)據(jù)準(zhǔn)備 148
5.2.1 導(dǎo)入分析所需要的模塊和函數(shù) 149
5.2.2 數(shù)據(jù)讀取及觀察 150
5.3 描述性分析 152
5.4 數(shù)據(jù)處理 154
5.4.1 區(qū)分分類特征和連續(xù)特征并進(jìn)行處理 154
5.4.2 將樣本全集分割為訓(xùn)練樣本和測試樣本 154
5.5 建立二元Logistic回歸算法模型 155
5.5.1 使用statsmodels建立二元Logistic回歸算法模型 155
5.5.2 使用sklearn建立二元Logistic回歸算法模型 159
5.5.3 特征變量重要性水平分析 162
5.5.4 繪制ROC曲線，計(jì)算AUC值 165
5.5.5 計(jì)算科恩kappa得分 166
5.6 習(xí)題 167
第6章多元Logistic回歸算法 169
6.1 多元Logistic回歸算法的基本原理 169
6.2 數(shù)據(jù)準(zhǔn)備 170
6.2.1 導(dǎo)入分析所需要的模塊和函數(shù) 170
6.2.2 數(shù)據(jù)讀取及觀察 171
6.3 描述性分析及圖形繪制 172
6.3.1 描述性分析 172
6.3.2 繪制直方圖 173
6.3.3 繪制箱圖 173
6.4 數(shù)據(jù)處理 175
6.4.1 區(qū)分分類特征和連續(xù)特征并進(jìn)行處理 175
6.4.2 將樣本全集分割為訓(xùn)練樣本和測試樣本 175
6.5 建立多元Logistic回歸算法模型 175
6.5.1 模型估計(jì) 176
6.5.2 模型性能分析 176
6.6 習(xí)題 179
第7章判別分析算法 180
7.1 判別分析算法的基本原理 180
7.1.1 線性判別分析的基本原理 180
7.1.2 線性判別分析的算法過程 181
7.1.3 二次判別分析的基本原理 182
7.2 數(shù)據(jù)準(zhǔn)備 183
7.2.1 導(dǎo)入分析所需要的模塊和函數(shù) 184
7.2.2 線性判別分析降維優(yōu)勢展示 185
7.2.3 數(shù)據(jù)讀取及觀察 187
7.3 特征變量相關(guān)性分析 188
7.4 使用樣本全集開展線性判別分析 189
7.4.1 模型估計(jì)及性能分析 189
7.4.2 運(yùn)用兩個特征變量繪制LDA決策邊界圖 192
7.5 使用分割樣本開展線性判別分析 193
7.6 使用分割樣本開展二次判別分析 195
7.6.1 模型估計(jì) 195
7.6.2 運(yùn)用兩個特征變量繪制QDA決策邊界圖 196
7.7 習(xí)題 197
第8章樸素貝葉斯算法 198
8.1 樸素貝葉斯算法的基本原理 198
8.1.1 貝葉斯方法的基本原理 198
8.1.2 貝葉斯定理 199
8.1.3 樸素貝葉斯算法的基本原理 201
8.1.4 拉普拉斯修正 202
8.1.5 樸素貝葉斯算法分類及適用條件 202
8.2 數(shù)據(jù)準(zhǔn)備 203
8.2.1 案例數(shù)據(jù)說明 203
8.2.2 導(dǎo)入分析所需要的模塊和函數(shù) 205
8.3 高斯樸素貝葉斯算法示例 205
8.3.1 數(shù)據(jù)讀取及觀察 206
8.3.2 將樣本全集分割為訓(xùn)練樣本和測試樣本 207
8.3.3 高斯樸素貝葉斯算法擬合 207
8.3.4 繪制ROC曲線 207
8.3.5 運(yùn)用兩個特征變量繪制高斯樸素貝葉斯決策邊界圖 208
8.4 多項(xiàng)式、補(bǔ)集、二項(xiàng)式樸素貝葉斯算法示例 208
8.4.1 數(shù)據(jù)讀取及觀察 209
8.4.2 將樣本全集分割為訓(xùn)練樣本和測試樣本 209
8.4.3 多項(xiàng)式、補(bǔ)集、二項(xiàng)式樸素貝葉斯算法擬合 210
8.4.4 尋求二項(xiàng)式樸素貝葉斯算法擬合的最優(yōu)參數(shù) 210
8.4.5 最優(yōu)二項(xiàng)式樸素貝葉斯算法模型性能評價 213
8.5 習(xí)題 214
第9章高維數(shù)據(jù)懲罰回歸算法 216
9.1 高維數(shù)據(jù)懲罰回歸算法簡介 216
9.1.1 高維數(shù)據(jù)懲罰回歸算法的基本原理 216
9.1.2 嶺回歸 217
9.1.3 Lasso回歸 217
9.1.4 彈性網(wǎng)回歸 218
9.1.5 懲罰回歸算法的選擇 218
9.2 數(shù)據(jù)準(zhǔn)備 218
9.2.1 導(dǎo)入分析所需要的模塊和函數(shù) 220
9.2.2 數(shù)據(jù)讀取及觀察 220
9.3 變量設(shè)置及數(shù)據(jù)處理 221
9.4 嶺回歸算法 222
9.4.1 使用默認(rèn)懲罰系數(shù)構(gòu)建嶺回歸模型 222
9.4.2 使用留一交叉驗(yàn)證法尋求最優(yōu)懲罰系數(shù)構(gòu)建嶺回歸模型 223
9.4.3 使用K折交叉驗(yàn)證法尋求最優(yōu)懲罰系數(shù)構(gòu)建嶺回歸模型 224
9.4.4 劃分訓(xùn)練樣本和測試樣本下的最優(yōu)嶺回歸模型 225
9.5 Lasso回歸算法 226
9.5.1 使用隨機(jī)選取懲罰系數(shù)構(gòu)建嶺回歸模型 226
9.5.2 使用留一交叉驗(yàn)證法尋求最優(yōu)懲罰系數(shù)構(gòu)建Lasso回歸模型 227
9.5.3 使用K折交叉驗(yàn)證法尋求最優(yōu)懲罰系數(shù)構(gòu)建Lasso回歸模型 227
9.5.4 劃分訓(xùn)練樣本和測試樣本下的最優(yōu)Lasso回歸模型 228
9.6 彈性網(wǎng)回歸算法 229
9.6.1 使用隨機(jī)選取懲罰系數(shù)構(gòu)建彈性網(wǎng)回歸模型 229
9.6.2 使用K折交叉驗(yàn)證法尋求最優(yōu)懲罰系數(shù)構(gòu)建彈性網(wǎng)回歸模型 230
9.6.3 劃分訓(xùn)練樣本和測試樣本下的最優(yōu)彈性網(wǎng)回歸模型 231
9.7 習(xí)題 231
第10章 K近鄰算法 233
10.1 K近鄰算法簡介 233
10.1.1 K近鄰算法的基本原理 233
10.1.2 K值的選擇 235
10.1.3 K近鄰算法的變種 235
10.2 數(shù)據(jù)準(zhǔn)備 236
10.2.1 案例數(shù)據(jù)說明 236
10.2.2 導(dǎo)入分析所需要的模塊和函數(shù) 236
10.3 回歸問題K近鄰算法示例 237
10.3.1 變量設(shè)置及數(shù)據(jù)處理 237
10.3.2 構(gòu)建K近鄰回歸算法模型 237
10.3.3 如何選擇最優(yōu)的K值 238
10.3.4 最優(yōu)模型擬合效果圖形展示 239
10.4 分類問題K近鄰算法示例 240
10.4.1 變量設(shè)置及數(shù)據(jù)處理 240
10.4.2 構(gòu)建K近鄰分類算法模型 241
10.4.3 如何選擇最優(yōu)的K值 242
10.4.4 最優(yōu)模型擬合效果圖形展示 243
10.4.5 繪制K近鄰分類算法ROC曲線 243
10.4.6 運(yùn)用兩個特征變量繪制K近鄰算法決策邊界圖 244
10.4.7 普通KNN算法、帶權(quán)重KNN、指定半徑KNN三種算法的對比 245
10.5 習(xí)題 246
第11章主成分分析算法 248
11.1 主成分分析算法簡介 248
11.1.1 主成分分析算法的基本原理 248
11.1.2 主成分分析算法的數(shù)學(xué)概念 249
11.1.3 主成分的特征值 250
11.1.4 樣本的主成分得分 250
11.1.5 主成分載荷 251
11.2 數(shù)據(jù)準(zhǔn)備 252
11.2.1 案例數(shù)據(jù)說明 252
11.2.2 導(dǎo)入分析所需要的模塊和函數(shù) 253
11.2.3 變量設(shè)置及數(shù)據(jù)處理 253
11.2.4 特征變量相關(guān)性分析 254
11.3 主成分分析算法示例 256
11.3.1 主成分提取及特征值、方差貢獻(xiàn)率計(jì)算 256
11.3.2 繪制碎石圖觀察各主成分特征值 256
11.3.3 繪制碎石圖觀察各主成分方差貢獻(xiàn)率 257
11.3.4 繪制碎石圖觀察主成分累積方差貢獻(xiàn)率 258
11.3.5 計(jì)算樣本的主成分得分 258
11.3.6 繪制二維圖形展示樣本在前兩個主成分上的得分 259
11.3.7 繪制三維圖形展示樣本在前三個主成分上的得分 260
11.3.8 輸出特征向量矩陣，觀察主成分載荷 260
11.4 習(xí)題 261
第12章聚類分析算法 262
12.1 聚類分析算法簡介 262
12.1.1 聚類分析算法的基本原理 262
12.1.2 劃分聚類分析 263
12.1.3 層次聚類分析 263
12.1.4 樣本距離的測度 265
12.2 數(shù)據(jù)準(zhǔn)備 267
12.2.1 案例數(shù)據(jù)說明 268
12.2.2 導(dǎo)入分析所需要的模塊和函數(shù) 268
12.2.3 變量設(shè)置及數(shù)據(jù)處理 269
12.2.4 特征變量相關(guān)性分析 270
12.3 劃分聚類分析算法示例 271
12.3.1 使用K均值聚類分析方法對樣本進(jìn)行聚類（K=2） 271
12.3.2 使用K均值聚類分析方法對樣本進(jìn)行聚類（K=3） 271
12.3.3 使用K均值聚類分析方法對樣本進(jìn)行聚類（K=4） 272
12.4 層次聚類分析算法示例 273
12.4.1 最短聯(lián)結(jié)法聚類分析 273
12.4.2 最長聯(lián)結(jié)法聚類分析 274
12.4.3 平均聯(lián)結(jié)法聚類分析 275
12.4.4 ward聯(lián)結(jié)法聚類分析 277
12.4.5 重心聯(lián)結(jié)法聚類分析 278
12.5 習(xí)題 279
第13章決策樹算法 280
13.1 決策樹算法簡介 280
13.1.1 決策樹算法的概念與原理 280
13.1.2 特征變量選擇及其臨界值確定方法 282
13.1.3 決策樹的剪枝 284
13.1.4 包含剪枝決策樹的損失函數(shù) 284
13.1.5 變量重要性 285
13.2 數(shù)據(jù)準(zhǔn)備 285
13.2.1 案例數(shù)據(jù)說明 285
13.2.2 導(dǎo)入分析所需要的模塊和函數(shù) 287
13.3 分類問題決策樹算法示例 287
13.3.1 變量設(shè)置及數(shù)據(jù)處理 287
13.3.2 未考慮成本-復(fù)雜度剪枝的決策樹分類算法模型 288
13.3.3 考慮成本-復(fù)雜度剪枝的決策樹分類算法模型 291
13.3.4 繪制圖形觀察葉節(jié)點(diǎn)總不純度隨alpha值的變化情況 291
13.3.5 繪制圖形觀察節(jié)點(diǎn)數(shù)和樹的深度隨alpha值的變化情況 292
13.3.6 繪制圖形觀察訓(xùn)練樣本和測試樣本的預(yù)測準(zhǔn)確率隨alpha值的變化情況 293
13.3.7 通過10折交叉驗(yàn)證法尋求最優(yōu)alpha值 294
13.3.8 決策樹特征變量重要性水平分析 295
13.3.9 繪制ROC曲線 296
13.3.10 運(yùn)用兩個特征變量繪制決策樹算法決策邊界圖 297
13.4 回歸問題決策樹算法示例 298
13.4.1 變量設(shè)置及數(shù)據(jù)處理 298
13.4.2 未考慮成本-復(fù)雜度剪枝的決策樹回歸算法模型 299
13.4.3 考慮成本-復(fù)雜度剪枝的決策樹回歸算法模型 300
13.4.4 繪制圖形觀察葉節(jié)點(diǎn)總均方誤差隨alpha值的變化情況 300
13.4.5 繪制圖形觀察節(jié)點(diǎn)數(shù)和樹的深度隨alpha值的變化情況 301
13.4.6 繪制圖形觀察訓(xùn)練樣本和測試樣本的擬合優(yōu)度隨alpha值的變化情況 302
13.4.7 通過10折交叉驗(yàn)證法尋求最優(yōu)alpha值并開展特征變量重要性水平分析 302
13.4.8 最優(yōu)模型擬合效果圖形展示 304
13.4.9 構(gòu)建線性回歸算法模型進(jìn)行對比 305
13.5 習(xí)題 305
第14章隨機(jī)森林算法 307
14.1 隨機(jī)森林算法的基本原理 307
14.1.1 集成學(xué)習(xí)的概念與分類 307
14.1.2 裝袋法的概念與原理 308
14.1.3 隨機(jī)森林算法的概念與原理 309
14.1.4 隨機(jī)森林算法特征變量重要性量度 309
14.1.5 部分依賴圖與個體條件期望圖 309
14.2 數(shù)據(jù)準(zhǔn)備 310
14.2.1 案例數(shù)據(jù)說明 310
14.2.2 導(dǎo)入分析所需要的模塊和函數(shù) 310
14.3 分類問題隨機(jī)森林算法示例 311
14.3.1 變量設(shè)置及數(shù)據(jù)處理 311
14.3.2 二元Logistic回歸、單棵分類決策樹算法觀察 311
14.3.3 裝袋法分類算法 312
14.3.4 隨機(jī)森林分類算法 313
14.3.5 尋求max_features最優(yōu)參數(shù) 313
14.3.6 尋求n_estimators最優(yōu)參數(shù) 314
14.3.7 隨機(jī)森林特征變量重要性水平分析 316
14.3.8 繪制部分依賴圖與個體條件期望圖 316
14.3.9 模型性能評價 318
14.3.10 繪制ROC曲線 319
14.3.11 運(yùn)用兩個特征變量繪制隨機(jī)森林算法決策邊界圖 320
14.4 回歸問題隨機(jī)森林算法示例 320
14.4.1 變量設(shè)置及數(shù)據(jù)處理 320
14.4.2 線性回歸、單棵回歸決策樹算法觀察 321
14.4.3 裝袋法回歸算法 321
14.4.4 隨機(jī)森林回歸算法 322
14.4.5 尋求max_features最優(yōu)參數(shù) 322
14.4.6 尋求n_estimators最優(yōu)參數(shù) 323
14.4.7 隨機(jī)森林特征變量重要性水平分析 325
14.4.8 繪制部分依賴圖與個體條件期望圖 325
14.4.9 最優(yōu)模型擬合效果圖形展示 326
14.5 習(xí)題 327
第15章提升法 329
15.1 提升法的基本原理 329
15.1.1 提升法的概念與原理 329
15.1.2 AdaBoost（自適應(yīng)提升法） 330
15.1.3 梯度提升法（Gradient Boosting Machine） 331
15.1.4 回歸問題損失函數(shù) 332
15.1.5 分類問題損失函數(shù) 336
15.1.6 隨機(jī)梯度提升法 337
15.1.7 XGBoost算法 338
15.2 數(shù)據(jù)準(zhǔn)備 338
15.2.1 案例數(shù)據(jù)說明 338
15.2.2 導(dǎo)入分析所需要的模塊和函數(shù) 340
15.3 回歸提升法示例 340
15.3.1 變量設(shè)置及數(shù)據(jù)處理 340
15.3.2 線性回歸算法觀察 341
15.3.3 回歸提升法（默認(rèn)參數(shù)） 341
15.3.4 使用隨機(jī)搜索尋求最優(yōu)參數(shù) 341
15.3.5 繪制圖形觀察模型均方誤差隨弱學(xué)習(xí)器數(shù)量變化的情況 342
15.3.6 繪制圖形觀察模型擬合優(yōu)度隨弱學(xué)習(xí)器數(shù)量變化的情況 343
15.3.7 回歸問題提升法特征變量重要性水平分析 344
15.3.8 繪制部分依賴圖與個體條件期望圖 345
15.3.9 最優(yōu)模型擬合效果圖形展示 346
15.3.10 XGBoost回歸提升法 347
15.4 二分類提升法示例 349
15.4.1 變量設(shè)置及數(shù)據(jù)處理 349
15.4.2 AdaBoost算法 349
15.4.3 二分類提升法（默認(rèn)參數(shù)） 349
15.4.4 使用隨機(jī)搜索尋求最優(yōu)參數(shù) 350
15.4.5 二分類問題提升法特征變量重要性水平分析 350
15.4.6 繪制部分依賴圖與個體條件期望圖 351
15.4.7 模型性能評價 352
15.4.8 繪制ROC曲線 354
15.4.9 運(yùn)用兩個特征變量繪制二分類提升法決策邊界圖 354
15.4.10 XGBoost二分類提升法 355
15.5 多分類提升法示例 356
15.5.1 變量設(shè)置及數(shù)據(jù)處理 356
15.5.2 多元Logistic回歸算法觀察 357
15.5.3 多分類提升法（默認(rèn)參數(shù)） 357
15.5.4 使用隨機(jī)搜索尋求最優(yōu)參數(shù) 357
15.5.5 多分類問題提升法特征變量重要性水平分析 358
15.5.6 繪制部分依賴圖與個體條件期望圖 359
15.5.7 模型性能評價 360
15.5.8 XGBoost多分類提升法 362
15.6 習(xí)題 362
第16章支持向量機(jī)算法 364
16.1 支持向量機(jī)算法的基本原理 364
16.1.1 線性可分 364
16.1.2 硬間隔分類器的概念與原理解釋 365
16.1.3 硬間隔分類器的求解步驟 367
16.1.4 軟間隔分類器的概念與原理解釋 368
16.1.5 軟間隔分類器的求解步驟 369
16.1.6 核函數(shù) 370
16.1.7 多分類問題支持向量機(jī) 372
16.1.8 支持向量回歸 373
16.2 數(shù)據(jù)準(zhǔn)備 375
16.2.1 案例數(shù)據(jù)說明 375
16.2.2 導(dǎo)入分析所需要的模塊和函數(shù) 375
16.3 回歸支持向量機(jī)算法示例 376
16.3.1 變量設(shè)置及數(shù)據(jù)處理 376
16.3.2 回歸支持向量機(jī)算法（默認(rèn)參數(shù)） 376
16.3.3 通過10折交叉驗(yàn)證尋求最優(yōu)參數(shù) 377
16.3.4 最優(yōu)模型擬合效果圖形展示 378
16.4 二分類支持向量機(jī)算法示例 379
16.4.1 變量設(shè)置及數(shù)據(jù)處理 379
16.4.2 二分類支持向量機(jī)算法（默認(rèn)參數(shù)） 379
16.4.3 通過10折交叉驗(yàn)證尋求最優(yōu)參數(shù) 380
16.4.4 模型性能評價 381
16.4.5 繪制ROC曲線 382
16.4.6 運(yùn)用兩個特征變量繪制二分類支持向量機(jī)算法決策邊界圖 383
16.5 多分類支持向量機(jī)算法示例 386
16.5.1 變量設(shè)置及數(shù)據(jù)處理 386
16.5.2 多分類支持向量機(jī)算法（一對一） 387
16.5.3 多分類支持向量機(jī)算法（默認(rèn)參數(shù)） 388
16.5.4 通過10折交叉驗(yàn)證尋求最優(yōu)參數(shù) 389
16.5.5 模型性能評價 390
16.6 習(xí)題 391
第17章神經(jīng)網(wǎng)絡(luò)算法 393
17.1 神經(jīng)網(wǎng)絡(luò)算法的基本原理 393
17.1.1 神經(jīng)網(wǎng)絡(luò)算法的基本思想 393
17.1.2 感知機(jī) 395
17.1.3 多層感知機(jī) 398
17.1.4 神經(jīng)元激活函數(shù) 400
17.1.5 誤差反向傳播算法（BP算法） 405
17.1.6 萬能近似定理及多隱藏層優(yōu)勢 408
17.1.7 BP算法過擬合問題的解決 408
17.2 數(shù)據(jù)準(zhǔn)備 410
17.2.1 案例數(shù)據(jù)說明 410
17.2.2 導(dǎo)入分析所需要的模塊和函數(shù) 411
17.3 回歸神經(jīng)網(wǎng)絡(luò)算法示例 411
17.3.1 變量設(shè)置及數(shù)據(jù)處理 411
17.3.2 單隱藏層的多層感知機(jī)算法 412
17.3.3 神經(jīng)網(wǎng)絡(luò)特征變量重要性水平分析 413
17.3.4 繪制部分依賴圖與個體條件期望圖 414
17.3.5 擬合優(yōu)度隨神經(jīng)元個數(shù)變化的可視化展示 415
17.3.6 通過K折交叉驗(yàn)證尋求單隱藏層最優(yōu)神經(jīng)元個數(shù) 416
17.3.7 雙隱藏層的多層感知機(jī)算法 417
17.3.8 最優(yōu)模型擬合效果圖形展示 417
17.4 二分類神經(jīng)網(wǎng)絡(luò)算法示例 418
17.4.1 變量設(shè)置及數(shù)據(jù)處理 418
17.4.2 單隱藏層二分類問題神經(jīng)網(wǎng)絡(luò)算法 419
17.4.3 雙隱藏層二分類問題神經(jīng)網(wǎng)絡(luò)算法 420
17.4.4 早停策略減少過擬合問題 420
17.4.5 正則化（權(quán)重衰減）策略減少過擬合問題 420
17.4.6 模型性能評價 421
17.4.7 繪制ROC曲線 422
17.4.8 運(yùn)用兩個特征變量繪制二分類神經(jīng)網(wǎng)絡(luò)算法決策邊界圖 423
17.5 多分類神經(jīng)網(wǎng)絡(luò)算法示例 423
17.5.1 變量設(shè)置及數(shù)據(jù)處理 424
17.5.2 單隱藏層多分類問題神經(jīng)網(wǎng)絡(luò)算法 424
17.5.3 雙隱藏層多分類問題神經(jīng)網(wǎng)絡(luò)算法 424
17.5.4 模型性能評價 425
17.5.5 運(yùn)用兩個特征變量繪制多分類神經(jīng)網(wǎng)絡(luò)算法決策邊界圖 426
17.6 習(xí)題 427