注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)大話數(shù)據(jù)科學(xué):大數(shù)據(jù)與機(jī)器學(xué)習(xí)實(shí)戰(zhàn)(基于R語(yǔ)言)

大話數(shù)據(jù)科學(xué):大數(shù)據(jù)與機(jī)器學(xué)習(xí)實(shí)戰(zhàn)(基于R語(yǔ)言)

大話數(shù)據(jù)科學(xué):大數(shù)據(jù)與機(jī)器學(xué)習(xí)實(shí)戰(zhàn)(基于R語(yǔ)言)

定 價(jià):¥128.00

作 者: 陳文賢 著
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買這本書可以去


ISBN: 9787302551300 出版時(shí)間: 2020-06-01 包裝: 平裝
開本: 16 頁(yè)數(shù): 382 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書以獨(dú)特的方式講解數(shù)據(jù)科學(xué),不僅讓讀者可以輕松學(xué)習(xí)數(shù)據(jù)科學(xué)理論,又可以動(dòng)手(手算和機(jī)算)進(jìn)行數(shù)據(jù)科學(xué)實(shí)戰(zhàn)。本書特色:全彩印刷,圖形、表格、思維導(dǎo)圖豐富;避免深?yuàn)W的數(shù)學(xué)證明,采用簡(jiǎn)單的數(shù)學(xué)說(shuō)明;用各種學(xué)習(xí)圖將本書內(nèi)容貫穿起來(lái);實(shí)戰(zhàn)計(jì)算,包含小型數(shù)據(jù)的演算和大型數(shù)據(jù)的實(shí)戰(zhàn)程序。 本書共13章,內(nèi)容涵蓋豐富的數(shù)據(jù)科學(xué)模型,包含關(guān)聯(lián)分析、聚類分析、貝葉斯分類、近鄰法、決策樹、降維分析、回歸模型等算法。利用小數(shù)據(jù)例題介紹計(jì)算步驟,同時(shí)用R語(yǔ)言驗(yàn)證計(jì)算結(jié)果。另外,也有大數(shù)據(jù)的案例數(shù)據(jù),例如:推薦系統(tǒng)、支持向量機(jī)、集成學(xué)習(xí)等。另外,本書只有大數(shù)據(jù)的案例數(shù)據(jù)用R語(yǔ)言計(jì)算。 本書適合各個(gè)專業(yè)領(lǐng)域(包含金融、電商、保險(xiǎn)、互聯(lián)網(wǎng)等行業(yè))想掌握數(shù)據(jù)科學(xué)的讀者,也可以作為高校、社會(huì)培訓(xùn)機(jī)構(gòu)教材。由于內(nèi)容比較多,教師可自行選擇教學(xué)內(nèi)容。

作者簡(jiǎn)介

  陳文賢,美國(guó)加州大學(xué)伯克利分校工業(yè)工程博士,歷任:臺(tái)大信息管理系教授兼系主任、美國(guó)雪城Syracuse大學(xué)客座教授、澳大利亞悉尼科技大學(xué)UTS客座教授、臺(tái)北德明財(cái)經(jīng)科技大學(xué)信息管理系特聘教授。

圖書目錄

第一篇 基礎(chǔ)篇
第1章 大數(shù)據(jù)概述 3
1.1 大數(shù)據(jù)與相關(guān)學(xué)科的定義 4
1.1.1 大數(shù)據(jù)的定義 4
1.1.2 數(shù)據(jù)挖掘 6
1.1.3 數(shù)據(jù)挖掘標(biāo)準(zhǔn)過(guò)程 7
1.1.4 機(jī)器學(xué)習(xí) 9
1.1.5 知識(shí)管理 12
1.1.6 數(shù)據(jù)科學(xué) 14
1.1.7 商業(yè)智能 15
1.1.8 人工智能 17
1.1.9 統(tǒng)計(jì)學(xué)與大數(shù)據(jù)比較 19
1.1.10 數(shù)據(jù)名詞的定義 21
1.2 系統(tǒng)與模型概念 22
1.2.1 系統(tǒng)定義與成分 22
1.2.2 輸入,處理,輸出與黑箱 23
1.2.3 環(huán)境 24
1.2.4 反饋 25
1.2.5 效率與效果 25
1.2.6 模型與建模 26
1.2.7 模型的假定與參數(shù) 27
1.2.8 敏感,穩(wěn)健或魯棒 28
1.2.9 模型的過(guò)擬合 28
1.3 大數(shù)據(jù)分析模型的分類 30
1.3.1 后設(shè)模型 30
1.3.2 關(guān)系與因果 31
1.3.3 基于因果關(guān)系的統(tǒng)計(jì)學(xué)分類 32
1.3.4 基于因果關(guān)系的大數(shù)據(jù)分類 32
1.3.5 基于數(shù)據(jù)類型的分類 34
1.3.6 基于測(cè)量的分類 35
1.3.7 數(shù)據(jù)科學(xué)模型的其他分類 36
1.4 大數(shù)據(jù)的江湖傳奇 36
1.5 R語(yǔ)言“詞云圖”代碼 40
1.6 本章思維導(dǎo)圖 42
第2 章 大數(shù)據(jù)與R 語(yǔ)言 43
2.1 大數(shù)據(jù)進(jìn)位 44
2.2 R語(yǔ)言介紹 45
2.2.1 安裝 R 語(yǔ)言軟件 45
2.2.2 下載R語(yǔ)言程序包 45
2.3 R數(shù)據(jù)對(duì)象的屬性與結(jié)構(gòu) 46
2.3.1 數(shù)值 47
2.3.2 整數(shù) 47
2.3.3 字符串 47
2.3.4 邏輯 47
2.3.5 向量 48
2.3.6 因子 49
2.3.7 矩陣 50
2.3.8 數(shù)據(jù)框 52
2.3.9 數(shù)組 52
2.3.10 列表 53
2.3.11 時(shí)間序列 54
2.3.12 訪問數(shù)據(jù)類型和結(jié)構(gòu) 54
2.3.13 遺失值 55
2.3.14 讀入Excel CSV數(shù)據(jù) 55
2.3.15 編輯數(shù)據(jù) 55
2.3.16 保存Excel CSV數(shù)據(jù) 55
2.3.17 數(shù)據(jù)輸入窗口 56
2.3.18 R 的數(shù)據(jù)結(jié)構(gòu)和函數(shù)表 56
2.4 R的函數(shù)包 56
2.5 R的數(shù)據(jù)繪圖 59
2.6 本章思維導(dǎo)圖 64
第二篇 非監(jiān)督式學(xué)習(xí)
第3 章 關(guān)聯(lián)分析 67
3.1 關(guān)聯(lián)分析介紹 68
3.1.1 事務(wù)與項(xiàng)目的定義 68
3.1.2 項(xiàng)集的關(guān)聯(lián)規(guī)則 69
3.2 關(guān)聯(lián)規(guī)則數(shù)據(jù)格式 71
3.3 關(guān)聯(lián)規(guī)則的算法 72
3.3.1 Apriori算法 73
3.3.2 關(guān)聯(lián)規(guī)則其他測(cè)度值 74
3.3.3 負(fù)關(guān)聯(lián)規(guī)則 75
3.4 關(guān)聯(lián)規(guī)則的優(yōu)點(diǎn)和缺點(diǎn) 76
3.4.1 Apriori算法的優(yōu)點(diǎn) 76
3.4.2 Apriori算法的缺點(diǎn) 76
3.4.3 關(guān)聯(lián)規(guī)則的評(píng)估 76
3.5 關(guān)聯(lián)規(guī)則的實(shí)例計(jì)算 77
3.5.1 尿布與啤酒 77
3.5.2 豆?jié){、燒餅與飯團(tuán) 79
3.5.3 評(píng)估與應(yīng)用 82
3.6 R語(yǔ)言實(shí)戰(zhàn) 82
3.6.1 泰坦尼克號(hào) 82
3.6.2 商店數(shù)據(jù) 86
3.6.3 食品雜貨數(shù)據(jù) 90
3.6.4 人口收入數(shù)據(jù) 92
3.6.5 鳶尾花數(shù)據(jù) 93
3.7 本章思維導(dǎo)圖 96
第4 章 聚類分析 97
4.1 聚類分析介紹 98
4.2 距離與相似度衡量 99
4.2.1 數(shù)值數(shù)據(jù)距離 99
4.2.2 標(biāo)準(zhǔn)化與歸一化 100
4.2.3 0-1數(shù)據(jù)距離和相似度 100
4.2.4 混合數(shù)據(jù)的距離 102
4.2.5 顧客數(shù)據(jù)的距離 102
4.2.6 距離和相似度的轉(zhuǎn)換 104
4.2.7 計(jì)算距離的R函數(shù) 104
4.3 層次聚類分析 106
4.3.1 兩類連接 106
4.3.2 顧客數(shù)據(jù)的聚類 107
4.3.3 層次聚類的優(yōu)點(diǎn)和缺點(diǎn) 110
4.4 非層次聚類分析 110
4.4.1 K-mean聚類 110
4.4.2 PAM 聚類 112
4.4.3 K-mean聚類的優(yōu)點(diǎn)和缺點(diǎn) 113
4.5 聚類分析的評(píng)價(jià) 113
4.6 R語(yǔ)言實(shí)戰(zhàn) 115
4.6.1 歐洲語(yǔ)言的聚類 115
4.6.2 美國(guó)電力公司數(shù)據(jù) 118
4.6.3 歐州人蛋白質(zhì)數(shù)據(jù) 120
4.6.4 紅酒數(shù)據(jù) 124
4.6.5 汽車數(shù)據(jù) 126
4.7 本章思維導(dǎo)圖 128
第5 章 降維分析 129
5.1 降維分析介紹 130
5.2 主成分分析 131
5.2.1 主成分分析的計(jì)算理論 132
5.2.2 主成分分析的計(jì)算步驟 134
5.2.3 主成分分析的優(yōu)點(diǎn)和缺點(diǎn) 134
5.3 R語(yǔ)言程序 135
5.4 R語(yǔ)言實(shí)戰(zhàn) 138
5.4.1 鳶尾花數(shù)據(jù) 138
5.4.2 美國(guó)罪犯數(shù)據(jù) 138
5.4.3 美國(guó)法官數(shù)據(jù) 145
5.4.4 國(guó)家冰球聯(lián)盟資料 146
5.4.5 美國(guó)職業(yè)棒球數(shù)據(jù) 149
5.4.6 早餐麥片數(shù)據(jù) 151
5.4.7 紅酒數(shù)據(jù) 151
5.4.8 心理學(xué)數(shù)據(jù) 152
5.5 本章思維導(dǎo)圖 154
第三篇 監(jiān)督式學(xué)習(xí)
第6 章 模型選擇與評(píng)價(jià) 157
6.1 模型選擇與評(píng)價(jià)步驟 158
6.2 大數(shù)據(jù)的抽樣方法 159
6.2.1 保留方法抽樣 160
6.2.2 自助抽樣法 162
6.2.3 632自助法 163
6.2.4 過(guò)采樣 164
6.3 交叉驗(yàn)證 165
6.3.1 k-折交叉驗(yàn)證 165
6.3.2 留一交叉驗(yàn)證 166
6.4 模型選擇 167
6.4.1 參數(shù)和非參數(shù)學(xué)習(xí) 168
6.4.2 偏差和方差 169
6.4.3 模型的復(fù)雜度 170
6.4.4 正則化 171
6.4.5 認(rèn)真學(xué)習(xí)和懶惰學(xué)習(xí) 171
6.5 模型評(píng)價(jià) 172
6.5.1 二元0-1分類器的評(píng)價(jià)——混淆矩陣 172
6.5.2 混淆矩陣的舉例說(shuō)明 174
6.5.3 二元分類器的成本計(jì)算 176
6.5.4 二元分類器例題數(shù)據(jù)R語(yǔ)言 176
6.5.5 多標(biāo)簽分類器的評(píng)價(jià) 179
6.5.6 多標(biāo)簽分類器評(píng)價(jià)R 語(yǔ)言 181
6.5.7 交叉驗(yàn)證分類的評(píng)價(jià) 183
6.5.8 分類學(xué)習(xí)的ROC曲線 183
6.5.9 連續(xù)型目標(biāo)變量回歸模型的評(píng)價(jià) 187
6.6 R語(yǔ)言實(shí)戰(zhàn) 189
6.6.1 R語(yǔ)言自動(dòng)調(diào)模與調(diào)參 189
6.6.2 汽車數(shù)據(jù) 190
6.6.3 乳腺癌診斷數(shù)據(jù) 190
6.7 本章思維導(dǎo)圖 192
第7 章 回歸分析 193
7.1 多元線性回歸 194
7.1.1 多元線性回歸模型 194
7.1.2 參數(shù)估計(jì) 195
7.1.3 適合性檢驗(yàn) 196
7.1.4 實(shí)例計(jì)算 197
7.1.5 R語(yǔ)言的實(shí)例計(jì)算 199
7.2 變量(特征)選擇 200
7.2.1 偏相關(guān)系數(shù) 200
7.2.2 逐步回歸 203
7.2.3 部分子集回歸 204
7.2.4 壓縮方法 205
7.3 Logistic邏輯回歸 207
7.4 R語(yǔ)言實(shí)戰(zhàn) 209
7.4.1 股票數(shù)據(jù) 209
7.4.2 乳腺癌病理數(shù)據(jù) 210
7.4.3 醫(yī)療保險(xiǎn)數(shù)據(jù) 213
7.4.4 棒球數(shù)據(jù) 215
7.4.5 波士頓房?jī)r(jià)數(shù)據(jù) 218
7.4.6 皮瑪數(shù)據(jù) 221
7.5 本章思維導(dǎo)圖 224
第8 章 近鄰法 225
8.1 學(xué)習(xí)器 226
8.1.1 認(rèn)真學(xué)習(xí)器和懶惰學(xué)習(xí)器 226
8.1.2 基于實(shí)例學(xué)習(xí)器 227
8.1.3 參數(shù)學(xué)習(xí)器和非參數(shù)學(xué)習(xí)器 228
8.2 近鄰法介紹 229
8.2.1 k-近鄰法算法步驟 229
8.2.2 k-近鄰法分類器 230
8.2.3 k-近鄰法回歸 231
8.2.4 自變量是分類變量 232
8.3 近鄰法的優(yōu)點(diǎn)和缺點(diǎn) 232
8.4 R語(yǔ)言實(shí)戰(zhàn) 233
8.4.1 食材數(shù)據(jù) 233
8.4.2 鳶尾花數(shù)據(jù) 234
8.4.3 乳癌檢查數(shù)據(jù) 236
8.4.4 美國(guó)總統(tǒng)候選人數(shù)據(jù) 238
8.4.5 玻璃數(shù)據(jù) 240
8.4.6 波士頓房?jī)r(jià)數(shù)據(jù) 241
8.4.7 皮瑪數(shù)據(jù) 242
8.5 本章思維導(dǎo)圖 244
第9 章 貝葉斯分類 245
9.1 貝葉斯公式 246
9.2 貝葉斯分類 247
9.2.1 樸素貝葉斯分類 247
9.2.2 特征值是連續(xù)變量 248
9.2.3 樸素貝葉斯分類的優(yōu)點(diǎn)和缺點(diǎn) 249
9.3 貝葉斯分類的實(shí)例計(jì)算 249
9.3.1 天氣和打網(wǎng)球 249
9.3.2 驗(yàn)前概率與似然概率 251
9.3.3 拉普拉斯校準(zhǔn) 251
9.3.4 R 語(yǔ)言實(shí)例計(jì)算 252
9.4 R語(yǔ)言實(shí)戰(zhàn) 255
9.4.1 泰坦尼克號(hào)數(shù)據(jù) 255
9.4.2 鳶尾花數(shù)據(jù) 256
9.4.3 垃圾郵件數(shù)據(jù) 258
9.4.4 皮瑪數(shù)據(jù) 261
9.5 本章思維導(dǎo)圖 262
第10 章 決策樹 263
10.1 決策樹概述 264
10.1.1 圖形表示 264
10.1.2 邏輯表示 265
10.1.3 規(guī)則表示 265
10.1.4 數(shù)學(xué)公式表示 265
10.2 決策樹的信息計(jì)算 266
10.2.1 信息計(jì)算 266
10.2.2 熵與信息 267
10.2.3 信息增益 267
10.2.4 信息增益比 268
10.2.5 基尼系數(shù)與基尼增益 268
10.2.6 卡方統(tǒng)計(jì)量 269
10.2.7 分枝法則的選擇 269
10.2.8 回歸樹 269
10.3 決策樹的實(shí)例計(jì)算 270
10.4 決策樹的剪枝 277
10.4.1 貪婪算法 277
10.4.2 決策樹剪枝 278
10.5 決策樹的優(yōu)點(diǎn)和缺點(diǎn) 279
10.6 R語(yǔ)言實(shí)戰(zhàn) 280
10.6.1 決策樹R語(yǔ)言包 280
10.6.2 打網(wǎng)球數(shù)據(jù) 280
10.6.3 泰坦尼克號(hào)數(shù)據(jù) 283
10.6.4 鳶尾花數(shù)據(jù) 284
10.6.5 皮瑪數(shù)據(jù) 289
10.6.6 汽車座椅銷售數(shù)據(jù) 292
10.6.7 波士頓房?jī)r(jià)數(shù)據(jù) 295
10.6.8 貓數(shù)據(jù) 297
10.6.9 駝背數(shù)據(jù) 300
10.6.10 美國(guó)總統(tǒng)選舉投票數(shù)據(jù) 301
10.6.11 員工離職數(shù)據(jù) 302
10.7 本章思維導(dǎo)圖 306
第11 章 支持向量機(jī) 307
11.1 支持向量機(jī)概述 308
11.2 最大間隔分類(硬間隔) 310
11.3 支持向量分類(軟間隔) 311
11.4 支持向量機(jī)(核函數(shù)) 313
11.4.1 支持向量機(jī)的核函數(shù) 313
11.4.2 多元分類支持向量機(jī) 315
11.5 支持向量機(jī)的優(yōu)點(diǎn)和缺點(diǎn) 315
11.6 支持向量機(jī)R語(yǔ)言應(yīng)用 316
11.6.1 隨機(jī)正態(tài)分布數(shù)據(jù)線性核函數(shù) 317
11.6.2 隨機(jī)正態(tài)分布數(shù)據(jù)徑向基核函數(shù) 318
11.6.3 三分類數(shù)據(jù)徑向基核函數(shù) 321
11.7 R語(yǔ)言實(shí)戰(zhàn) 322
11.7.1 基因表達(dá)數(shù)據(jù) 322
11.7.2 鳶尾花數(shù)據(jù) 322
11.7.3 貓數(shù)據(jù) 323
11.7.4 皮瑪數(shù)據(jù) 325
11.7.5 字符數(shù)據(jù) 328
11.7.6 玻璃數(shù)據(jù) 329
11.8 本章思維導(dǎo)圖 332
第12 章 集成學(xué)習(xí) 333
12.1 集成學(xué)習(xí)介紹 334
12.2 個(gè)別分類方法評(píng)價(jià) 335
12.3 Bagging學(xué)習(xí) 337
12.4 隨機(jī)森林 338
12.4.1 隨機(jī)森林介紹 338
12.4.2 隨機(jī)森林算法步驟 339
12.4.3 R 語(yǔ)言 339
12.4.4 隨機(jī)森林的優(yōu)點(diǎn)和缺點(diǎn) 340
12.4.5 非監(jiān)督式學(xué)習(xí)-鳶尾花數(shù)據(jù) 340
12.4.6 美國(guó)大學(xué)數(shù)據(jù) 341
12.5 Boosting學(xué)習(xí) 342
12.6 Stacking學(xué)習(xí) 343
12.6.1 皮瑪數(shù)據(jù) 343
12.6.2 員工離職數(shù)據(jù) 344
12.7 R語(yǔ)言實(shí)戰(zhàn) 345
12.7.1 紅酒數(shù)據(jù) 345
12.7.2 信用數(shù)據(jù) 347
12.7.3 皮瑪數(shù)據(jù) 348
12.7.4 波士頓房?jī)r(jià)數(shù)據(jù) 349
12.7.5 汽車座椅數(shù)據(jù) 352
12.7.6 顧客流失數(shù)據(jù) 353
12.8 本章思維導(dǎo)圖 356
第13 章 推薦系統(tǒng) 357
13.1 推薦系統(tǒng)概述 358
13.2 過(guò)濾推薦 359
13.2.1 相似度 360
13.2.2 基于用戶的協(xié)同過(guò)濾 360
13.2.3 基于項(xiàng)目的協(xié)同過(guò)濾 361
13.2.4 協(xié)同過(guò)濾的評(píng)價(jià) 362
13.2.5 協(xié)同過(guò)濾的優(yōu)點(diǎn)和缺點(diǎn) 363
13.2.6 混合的推薦機(jī)制 364
13.3 R語(yǔ)言應(yīng)用 365
13.3.1 推薦系統(tǒng)R語(yǔ)言包 365
13.3.2 recommenderlab 函數(shù)程序 366
13.3.3 模擬數(shù)據(jù) 367
13.4 R語(yǔ)言實(shí)戰(zhàn) 369
13.4.1 電影數(shù)據(jù) 369
13.4.2 笑話數(shù)據(jù) 373
13.5 本章思維導(dǎo)圖 378
結(jié)語(yǔ) 379
參考文獻(xiàn) 381

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)