注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)數(shù)據(jù)挖掘:實(shí)用機(jī)器學(xué)習(xí)工具與技術(shù)(原書第3版)

數(shù)據(jù)挖掘:實(shí)用機(jī)器學(xué)習(xí)工具與技術(shù)(原書第3版)

數(shù)據(jù)挖掘:實(shí)用機(jī)器學(xué)習(xí)工具與技術(shù)(原書第3版)

定 價(jià):¥79.00

作 者: (新西蘭)威滕,Witten(I.H.),弗蘭克,F(xiàn)rank(E.),霍爾,Hall(M.A.)著 李川 等譯
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 計(jì)算機(jī)與互聯(lián)網(wǎng) 數(shù)據(jù)庫(kù)

ISBN: 9787111453819 出版時(shí)間: 2014-05-01 包裝: 平裝
開本: 16開 頁(yè)數(shù): 480 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  《數(shù)據(jù)挖掘:實(shí)用機(jī)器學(xué)習(xí)工具與技術(shù)(原書第3版)》是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的經(jīng)典暢銷教材,被眾多國(guó)外名校選為教材。書中詳細(xì)介紹用于數(shù)據(jù)挖掘領(lǐng)域的機(jī)器學(xué)習(xí)技術(shù)和工具以及實(shí)踐方法,并且提供了一個(gè)公開的數(shù)據(jù)挖掘工作平臺(tái)Weka。本書主要內(nèi)容包括:數(shù)據(jù)輸入/輸出、知識(shí)表示、數(shù)據(jù)挖掘技術(shù)(決策樹、關(guān)聯(lián)規(guī)則、基于實(shí)例的學(xué)習(xí)、線性模型、聚類、多實(shí)例學(xué)習(xí)等)以及在實(shí)踐中的運(yùn)用。本版對(duì)上一版內(nèi)容進(jìn)行了全面更新,以反映自第2版出版以來(lái)數(shù)據(jù)挖掘領(lǐng)域的技術(shù)變革和新方法,包括數(shù)據(jù)轉(zhuǎn)換、集成學(xué)習(xí)、大規(guī)模數(shù)據(jù)集、多實(shí)例學(xué)習(xí)等,以及新版的Weka機(jī)器學(xué)習(xí)軟件。

作者簡(jiǎn)介

  Ian H.Witten,新西蘭懷卡托大學(xué)計(jì)算機(jī)科學(xué)系教授,ACM Fellow和新西蘭皇家學(xué)會(huì)Fellow,曾榮獲2004年國(guó)際信息處理研究協(xié)會(huì)(IFIP)頒發(fā)的Namur獎(jiǎng)項(xiàng)。他的研究興趣包括語(yǔ)言學(xué)習(xí)、信息檢索和機(jī)器學(xué)習(xí)。 Eibe Frank,新西蘭懷卡托大學(xué)計(jì)算機(jī)科學(xué)系副教授,《Machine Learning Journal》和《Journal of Artificial Intelligence Research》編委?!ark A.Hall,新西蘭懷卡托大學(xué)名譽(yù)副研究員,曾獲得2005年ACM SIGKDD服務(wù)獎(jiǎng)?!∽g者簡(jiǎn)介: 李川,博士,副教授,四川大學(xué)計(jì)算機(jī)學(xué)院數(shù)據(jù)庫(kù)知識(shí)工程研究所副所長(zhǎng),中國(guó)計(jì)算機(jī)學(xué)會(huì)數(shù)據(jù)庫(kù)專委會(huì)委員。主持國(guó)家自然科學(xué)基金青年基金等項(xiàng)目多項(xiàng),合作發(fā)表論文30余篇,獲四川省科技成果二等獎(jiǎng)1項(xiàng)。

圖書目錄

Data Mining:Practical Machine Learning Tools and Techniques,Third Edition
出版者的話
譯者序
前言
致謝
第一部分 數(shù)據(jù)挖掘簡(jiǎn)介
第1章 緒論2
1.1 數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)2
1.1.1 描述結(jié)構(gòu)模式3
1.1.2 機(jī)器學(xué)習(xí)5
1.1.3 數(shù)據(jù)挖掘6
1.2 簡(jiǎn)單的例子:天氣問(wèn)題和其他問(wèn)題6
1.2.1 天氣問(wèn)題7                                        
1.2.2 隱形眼鏡:一個(gè)理想化的問(wèn)題8
1.2.3 鳶尾花:一個(gè)經(jīng)典的數(shù)值型數(shù)據(jù)集10
1.2.4 CPU性能:介紹數(shù)值預(yù)測(cè)11
1.2.5 勞資協(xié)商:一個(gè)更真實(shí)的例子11
1.2.6 大豆分類:一個(gè)經(jīng)典的機(jī)器學(xué)習(xí)的成功例子13
1.3 應(yīng)用領(lǐng)域14
1.3.1 Web挖掘15
1.3.2 包含評(píng)判的決策15
1.3.3 圖像篩選16
1.3.4 負(fù)載預(yù)測(cè)17
1.3.5 診斷17
1.3.6 市場(chǎng)和銷售18
1.3.7 其他應(yīng)用19
1.4 機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)20
1.5 將泛化看做搜索21
1.5.1 枚舉概念空間22
1.5.2 偏差22
1.6 數(shù)據(jù)挖掘和道德24
1.6.1 再識(shí)別25
1.6.2 使用個(gè)人信息25
1.6.3 其他問(wèn)題26
1.7 補(bǔ)充讀物27
第2章 輸入:概念、實(shí)例和屬性29
2.1 概念29
2.2 樣本31
2.2.1 關(guān)系32
2.2.2 其他實(shí)例類型34
2.3 屬性35
2.4 輸入準(zhǔn)備37
2.4.1 數(shù)據(jù)收集37
2.4.2 ARFF格式38
2.4.3 稀疏數(shù)據(jù)40
2.4.4 屬性類型40
2.4.5 缺失值41
2.4.6 不正確的值42
2.4.7 了解數(shù)據(jù)43
2.5 補(bǔ)充讀物43
第3章 輸出:知識(shí)表達(dá)44
3.1 表44
3.2 線性模型44
3.3 樹45
3.4 規(guī)則48
3.4.1 分類規(guī)則49
3.4.2 關(guān)聯(lián)規(guī)則52
3.4.3 包含例外的規(guī)則52
3.4.4 表達(dá)能力更強(qiáng)的規(guī)則54
3.5 基于實(shí)例的表達(dá)56
3.6 聚類58
3.7 補(bǔ)充讀物60
第4章 算法:基本方法61
4.1 推斷基本規(guī)則61
4.1.1 缺失值和數(shù)值屬性62
4.1.2 討論64
4.2 統(tǒng)計(jì)建模64
4.2.1 缺失值和數(shù)值屬性67
4.2.2 用于文檔分類的樸素貝葉斯68
4.2.3 討論70
4.3 分治法:建立決策樹70
4.3.1 計(jì)算信息量73
4.3.2 高度分支屬性74
4.3.3 討論75
4.4 覆蓋算法:建立規(guī)則76
4.4.1 規(guī)則與樹77
4.4.2 一個(gè)簡(jiǎn)單的覆蓋算法77
4.4.3 規(guī)則與決策列表80
4.5 挖掘關(guān)聯(lián)規(guī)則81
4.5.1 項(xiàng)集81
4.5.2 關(guān)聯(lián)規(guī)則83
4.5.3 有效地生成規(guī)則85
4.5.4 討論87
4.6 線性模型87
4.6.1 數(shù)值預(yù)測(cè):線性回歸87
4.6.2 線性分類:Logistic回歸88
4.6.3 使用感知機(jī)的線性分類90
4.6.4 使用Winnow的線性分類91
4.7 基于實(shí)例的學(xué)習(xí)92
4.7.1 距離函數(shù)93
4.7.2 有效尋找最近鄰93
4.7.3 討論97
4.8 聚類97
4.8.1 基于距離的迭代聚類98
4.8.2 快速距離計(jì)算99
4.8.3 討論100
4.9 多實(shí)例學(xué)習(xí)100
4.9.1 聚集輸入100
4.9.2 聚集輸出100
4.9.3 討論101
4.10 補(bǔ)充讀物101
4.11 Weka實(shí)現(xiàn)103
第5章 可信度:評(píng)估學(xué)習(xí)結(jié)果104
5.1 訓(xùn)練和測(cè)試104
5.2 預(yù)測(cè)性能106
5.3 交叉驗(yàn)證108
5.4 其他評(píng)估方法109
5.4.1 留一交叉驗(yàn)證109
5.4.2 自助法109
5.5 數(shù)據(jù)挖掘方法比較110
5.6 預(yù)測(cè)概率113
5.6.1 二次損失函數(shù)114
5.6.2 信息損失函數(shù)115
5.6.3 討論115
5.7 計(jì)算成本116
5.7.1 成本敏感分類117
5.7.2 成本敏感學(xué)習(xí)118
5.7.3 提升圖119
5.7.4 ROC曲線122
5.7.5 召回率-精確率曲線124
5.7.6 討論124
5.7.7 成本曲線125
5.8 評(píng)估數(shù)值預(yù)測(cè)127
5.9 最小描述長(zhǎng)度原理129
5.10 在聚類方法中應(yīng)用MDL原理131
5.11 補(bǔ)充讀物132
第二部分 高級(jí)數(shù)據(jù)挖掘
第6章 實(shí)現(xiàn):真正的機(jī)器學(xué)習(xí)方案134
6.1 決策樹135
6.1.1 數(shù)值屬性135
6.1.2 缺失值136
6.1.3 剪枝137
6.1.4 估計(jì)誤差率138
6.1.5 決策樹歸納的復(fù)雜度140
6.1.6 從決策樹到規(guī)則140
6.1.7 C4.5:選擇和選項(xiàng)141
6.1.8 成本-復(fù)雜度剪枝141
6.1.9 討論142
6.2 分類規(guī)則142
6.2.1 選擇測(cè)試的標(biāo)準(zhǔn)143
6.2.2 缺失值和數(shù)值屬性143
6.2.3 生成好的規(guī)則144
6.2.4 使用全局優(yōu)化146
6.2.5 從局部決策樹中獲得規(guī)則146
6.2.6 包含例外的規(guī)則149
6.2.7 討論151
6.3 關(guān)聯(lián)規(guī)則152
6.3.1 建立頻繁模式樹152
6.3.2 尋找大項(xiàng)集157
6.3.3 討論157
6.4 擴(kuò)展線性模型158
6.4.1 最大間隔超平面159
6.4.2 非線性類邊界160
6.4.3 支持向量回歸161
6.4.4 核嶺回歸163
6.4.5 核感知機(jī)164
6.4.6 多層感知機(jī)165
6.4.7 徑向基函數(shù)網(wǎng)絡(luò)171
6.4.8 隨機(jī)梯度下降172
6.4.9 討論173
6.5 基于實(shí)例的學(xué)習(xí)174
6.5.1 減少樣本集的數(shù)量174
6.5.2 對(duì)噪聲樣本集剪枝174
6.5.3 屬性加權(quán)175
6.5.4 泛化樣本集176
6.5.5 用于泛化樣本集的距離函數(shù)176
6.5.6 泛化的距離函數(shù)177
6.5.7 討論178
6.6 局部線性模型用于數(shù)值預(yù)測(cè)178
6.6.1 模型樹179
6.6.2 構(gòu)建樹179
6.6.3 對(duì)樹剪枝180
6.6.4 名目屬性180
6.6.5 缺失值181
6.6.6 模型樹歸納的偽代碼181
6.6.7 從模型樹到規(guī)則184
6.6.8 局部加權(quán)線性回歸184
6.6.9 討論185
6.7 貝葉斯網(wǎng)絡(luò)186
6.7.1 預(yù)測(cè)186
6.7.2 學(xué)習(xí)貝葉斯網(wǎng)絡(luò)189
6.7.3 算法細(xì)節(jié)190
6.7.4 用于快速學(xué)習(xí)的數(shù)據(jù)結(jié)構(gòu)192
6.7.5 討論194
6.8 聚類194
6.8.1 選擇聚類的個(gè)數(shù)195
6.8.2 層次聚類195
6.8.3 層次聚類的例子196
6.8.4 增量聚類199
6.8.5 分類效用203
6.8.6 基于概率的聚類204
6.8.7 EM算法205
6.8.8 擴(kuò)展混合模型206
6.8.9 貝葉斯聚類207
6.8.10 討論209
6.9 半監(jiān)督學(xué)習(xí)210
6.9.1 用于分類的聚類210
6.9.2 協(xié)同訓(xùn)練212
6.9.3 EM和協(xié)同訓(xùn)練212
6.9.4 討論213
6.10 多實(shí)例學(xué)習(xí)213
6.10.1 轉(zhuǎn)換為單實(shí)例學(xué)習(xí)213
6.10.2 升級(jí)學(xué)習(xí)算法215
6.10.3 專用多實(shí)例方法215
6.10.4 討論216
6.11 Weka實(shí)現(xiàn)216
第7章 數(shù)據(jù)轉(zhuǎn)換218
7.1 屬性選擇219
7.1.1 獨(dú)立于方案的選擇220
7.1.2 搜索屬性空間222
7.1.3 具體方案相關(guān)的選擇223
7.2 離散化數(shù)值屬性225
7.2.1 無(wú)監(jiān)督離散化226
7.2.2 基于熵的離散化226
7.2.3 其他離散化方法229
7.2.4 基于熵的離散化與基于誤差的離散化229
7.2.5 離散屬性轉(zhuǎn)換成數(shù)值屬性230
7.3 投影230
7.3.1 主成分分析231
7.3.2 隨機(jī)投影233
7.3.3 偏最小二乘回歸233
7.3.4 從文本到屬性向量235
7.3.5 時(shí)間序列236
7.4 抽樣236
7.5 數(shù)據(jù)清洗237
7.5.1 改進(jìn)決策樹237
7.5.2 穩(wěn)健回歸238
7.5.3 檢測(cè)異常239
7.5.4 一分類學(xué)習(xí)239
7.6 多分類問(wèn)題轉(zhuǎn)換成二分類問(wèn)題242
7.6.1 簡(jiǎn)單方法242
7.6.2 誤差校正輸出編碼243
7.6.3 集成嵌套二分法244
7.7 校準(zhǔn)類概率246
7.8 補(bǔ)充讀物247
7.9 Weka實(shí)現(xiàn)249
第8章 集成學(xué)習(xí)250
8.1 組合多種模型250
8.2 裝袋251
8.2.1 偏差-方差分解251
8.2.2 考慮成本的裝袋253
8.3 隨機(jī)化253
8.3.1 隨機(jī)化與裝袋254
8.3.2 旋轉(zhuǎn)森林254
8.4 提升255
8.4.1 AdaBoost算法255
8.4.2 提升算法的威力257
8.5 累加回歸258
8.5.1 數(shù)值預(yù)測(cè)258
8.5.2 累加Logistic回歸259
8.6 可解釋的集成器260
8.6.1 選擇樹260
8.6.2 Logistic模型樹262
8.7 堆棧262
8.8 補(bǔ)充讀物264
8.9 Weka實(shí)現(xiàn)265
第9章 繼續(xù):擴(kuò)展和應(yīng)用266
9.1 應(yīng)用數(shù)據(jù)挖掘266
9.2 從大型的數(shù)據(jù)集里學(xué)習(xí)268
9.3 數(shù)據(jù)流學(xué)習(xí)270
9.4 融合領(lǐng)域知識(shí)272
9.5 文本挖掘273
9.6 Web挖掘276
9.7 對(duì)抗情形278
9.8 無(wú)處不在的數(shù)據(jù)挖掘280
9.9 補(bǔ)充讀物281
第三部分 Weka數(shù)據(jù)挖掘平臺(tái)
第10章 Weka簡(jiǎn)介284
10.1 Weka中包含了什么284
10.2 如何使用Weka285
10.3 Weka的其他應(yīng)用286
10.4 如何得到Weka286
……
第11章 Explorer界面287
第12章 Knowledge Flow界面351
第13章 Experimenter界面358
第14章 命令行界面368
第15章 嵌入式機(jī)器學(xué)習(xí)376
第16章 編寫新的學(xué)習(xí)方案382
第17章 Weka Explorer的輔導(dǎo)練習(xí)397
參考文獻(xiàn)416
索引431

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)