注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡數據庫數據庫挖掘/數據倉庫數據挖掘:概念與技術

數據挖掘:概念與技術

數據挖掘:概念與技術

定 價:¥39.00

作 者: (加)[韓家煒]JiaweiHan,(加)Micheline Kamber著;范明,孟小峰等譯
出版社: 機械工業(yè)出版社
叢編項: 計算機科學叢書
標 簽: 暫缺

ISBN: 9787111090489 出版時間: 2001-08-01 包裝: 平裝(無盤)
開本: 24cm 頁數: 374 字數:  

內容簡介

  數據挖掘是數據庫研究、開發(fā)和應用最活躍的分支之一。本書從數據庫角度全面、系統(tǒng)地介紹數據挖掘的基本概念、基本方法和基本技術以及數據挖掘的最新進展,是一本可讀性極佳的教材。本書全面而深入地敘述了數據庫技術的發(fā)展和數據挖掘應用的重要性,數據倉庫和OLAP(聯(lián)機分析處理)技術,數據預處理技術(包括數據清理、數據集成和轉換、數據歸約的方法),數據挖掘技術(包括分類、預測、關聯(lián)和聚類等基礎概念和技術),先進的數據庫系統(tǒng)中的數據挖掘方法,數據挖掘的慶用和一些具有挑戰(zhàn)性的研究問題。作者注重實效,將以上內容輔以實例,對每類問題均提供代表性算法,并給出每一技術具體的應用法則。該書由10章及兩個附錄組成。通過本書的學習,讀者可以對數據挖掘的整體結構、概念和技術有深入的認識和了解,并且可以熟悉數據挖掘的基本原理和發(fā)展方向。目錄:譯者序序前言第1章引言第2章數據倉庫和數據挖掘的OLAP第3章數據預處理第4章數據挖掘原語、語言和系統(tǒng)結構第5章概念描述:特征化與比較第6章挖掘大型數據庫中的關聯(lián)規(guī)則第7章分類和預測第8章聚類分析第9章復雜和類型數據的挖掘第10章數據挖掘的應用和發(fā)展趨勢附錄A附錄B參考文獻索引

作者簡介

  范明,鄭州大學計算機科學系統(tǒng)教授,副系主任,兼任河南省計算機學會軟件專業(yè)委員會主任。長期從事計算機軟件數學和研究。主要講授的課程包括計算機操作系統(tǒng)、數據庫系統(tǒng)原理、知識庫系統(tǒng)原理、數據挖掘和程序設計等。關心的主要研究領域包括遞歸查詢優(yōu)化、數據挖掘和數據倉庫。1989——1990年曾訪問加拿大西蒙·弗雷澤大學計算機科學系,從事演繹數據庫研究。1999年訪問美國Wrightstate大學計算機科學與工程系、從事數據挖掘研究。曾與南京大學徐潔磐教授合作主持國家自然科學基金項目1項,主持河南省自然科學基金和科技攻關項目多項。近十年發(fā)表論文20余篇,參加了《數據庫綜合大辭典》(1995)和《數據庫技術新進展》(1997)的編寫,并與徐潔磐。馬玉書合作出版著作《知識庫系統(tǒng)導論》(2000)。孟小峰,博士,教授,中國人民大學信息學院計算機系副主任,中國計算機學會理事,中國計算機學會數據庫專業(yè)委員會委員、秘書長,中國計算機學會青年計算機科技論壇(YOCSEF)副主席,多次擔任國際學術會議程序委員會委員,目前為《計算機研究與發(fā)展》編委。1994-1996年曾在香港中文大學和城市大學從事研究工作。主持或參加過十多項國家科技攻關項目、國家自然科學基金以及國家863項目,獲國家科技進步二等獎,電子部科技進步特等獎,北京市科技進步二等獎等獎勵。研制開發(fā)的主要軟件產品有國產數據庫系統(tǒng)COBASE、嵌入式移動數據庫系統(tǒng)“小精靈”、中文自然語言查詢系統(tǒng)NChiql和并行數據庫系統(tǒng)PBASE/1等。近十年在國內外雜志及國際會議發(fā)表論文50余篇,有數據方面的著譯作七部。主要研究領域為數據庫系統(tǒng)實現技術、數據庫查詢語言、自然語言接口、嵌入與移動數據管理、Web數據管理等。

圖書目錄

譯者序

前言
第1章
引言 1
1.1
什么激發(fā)了數據挖掘,?為什么
它是重要的 1
1.2
什么是數據挖掘 3
1.3
在何種數據上進行數據挖掘 6
1.3.1
關系數據庫 7
1.3.2
數據倉庫 8
1.3.3
事務數據庫 10
1.3.4
高級數據庫系統(tǒng)和高級數據庫
應用 11
1.4
數據挖掘功能—可以挖掘什么
類型的模式 14
1.4.1
概念/類描述:特征化和區(qū)分 14
1.4.2
關聯(lián)分析 15
1.4.3
分類和預測 16
1.4.4
聚類分析 16
1.4.5
孤立點分析 17
1.4.6
演變分析 17
1.5
所有模式都是有趣的嗎 18
1.6
數據挖掘系統(tǒng)的分類 19
1.7
數據挖掘的主要問題 20
1.8
小結 22
習題 22
文獻注釋 23
第2章
數據倉庫和數據挖掘的OLAP
技術 26
2.1
什么是數據倉庫 26
2.1.1
操作數據庫系統(tǒng)與數據倉庫的
區(qū)別 27
2.1.2
為什么需要一個分離的數據倉庫 29
2.2
多維數據模型 29
2.2.1
由表和電子數據表到數據立方體 29
2.2.2
星型.?雪花和事實星座:多維數
據庫模式 32
2.2.3
定義星型.?雪花和事實星座模式的
例子 34
2.2.4
度量的分類和計算 36
2.2.5
引入概念分層 37
2.2.6
多維數據模型上的OLAP操作 39
2.2.7
查詢多維數據庫的星型網查詢模型 41
2.3
數據倉庫的系統(tǒng)結構 42
2.3.1
數據倉庫的設計步驟和結構 42
2.3.2
三層數據倉庫結構 44
2.3.3
OLAP服務器類型:ROLAP,MOLAP,
HOLAP的比較 46
2.4
數據倉庫實現 47
2.4.1
數據立方體的有效計算 47
2.4.2
索引OLAP數據 52
2.4.3
OLAP查詢的有效處理 54
2.4.4
元數據存儲 55
2.4.5
數據倉庫后端工具和實用程序 56
2.5
數據立方體技術的進一步發(fā)展 56
2.5.1
數據立方體發(fā)現驅動的探查 56
2.5.2
多粒度上的復雜聚集:多特征方 59
2.5.3
其他進展 61
2.6
從數據倉庫到數據挖掘 61
2.6.1
數據倉庫的使用 62
2.6.2
從聯(lián)機分析處理到聯(lián)機分析挖掘 63
2.7
小結 65
習題 66
文獻注釋 68
第3章
數據預處理 70
3.1
為什么要預處理數據 70
3.2
數據清理 72
3.2.1
空缺值 72
3.2.2
噪聲數據 73
3.2.3
不一致數據 74
3.3
數據集成和變換 75
3.3.1
數據集成 75
3.3.2
數據變換 76
3.4
數據歸約 77
3.4.1
數據立方體聚集 77
3.4.2
維歸約 79
3.4.3
數據壓縮 80
3.4.4
數值歸約 82
3.5
離散化和概念分層生成 87
3.5.1
數值數據的離散化和概念分層
生成 88
3.5.2
分類數據的概念分層生成 91
3.6
小結 93
習題 93
文獻注釋 94
第4章
數據挖掘原語.?語言和系統(tǒng)
結構 96
4.1
數據挖掘原語:定義數據挖掘任務 96
4.1.1
任務相關的數據 98
4.1.2
要挖掘的知識的類型 99
4.1.3
背景知識:概念分層 100
4.1.4
興趣度度量 102
4.1.5
發(fā)現模式的表示和可視化 104
4.2
一種數據挖掘查詢語言 105
4.2.1
任務相關數據說明的語法 107
4.2.2
指定挖掘知識類型的語法 107
4.2.3
概念分層說明的語法 109
4.2.4
興趣度度量說明的語法 110
4.2.5
模式表示和可視化說明的語法 110
4.2.6
匯集—一個DMQL查詢的例子 111
4.2.7
其他數據挖掘語言和數據挖掘
原語的標準化 112
4.3
根據數據挖掘查詢語言設計圖形
用戶界面 113
4.4
數據挖掘系統(tǒng)的結構 113
4.5
小結 115
習題 115
文獻注釋 117
第5章
概念描述:特征化與比較 119
5.1
什么是概念描述 119
5.2
數據概化和基于匯總的特征化 120
5.2.1
面向屬性的歸納 120
5.2.2
面向屬性歸納的有效實現 124
5.2.3
導出概化的表示 125
5.3
解析特征化:屬性相關分析 128
5.3.1
為什么進行屬性相關分析 129
5.3.2
屬性相關分析方法 129
5.3.3
解析特征化:一個例子 131
5.4
挖掘類比較:區(qū)分不同的類 132
5.4.1
類比較方法和實現 133
5.4.2
類比較描述的表示 135
5.4.3
類描述:特征化和比較的表示 136
5.5
在大型數據庫中挖掘描述統(tǒng)計
度量 137
5.5.1
度量中心趨勢 138
5.5.2
度量數據的離散度 139
5.5.3
基本統(tǒng)計類描述的圖形顯示 141
5.6
討論 144
5.6.1
概念描述:與典型的機器學習方法
比較 144
5.6.2
概念描述的增量挖掘和并行
挖掘 145
5.7
小結 146
習題 146
文獻注釋 147
第6章
挖掘大型數據庫中的關聯(lián)規(guī)則 149
6.1
關聯(lián)規(guī)則挖掘 149
6.1.1
購物籃分析:一個引發(fā)關聯(lián)規(guī)則
挖掘的例子 150
6.1.2
基本概念 150
6.1.3
關聯(lián)規(guī)則挖掘:一個路線圖 151
6.2
由事務數據庫挖掘單維布爾關聯(lián)
規(guī)則 152
6.2.1
Apriori算法:使用候選項集找
頻繁項集 152
6.2.2
由頻繁項集產生關聯(lián)規(guī)則 156
6.2.3
提高Apriori的有效性 157
6.2.4
不產生候選挖掘頻繁項集 158
6.2.5
冰山查詢 161
6.3
由事務數據庫挖掘多層關聯(lián)規(guī)則 162
6.3.1
多層關聯(lián)規(guī)則 162
6.3.2
挖掘多層關聯(lián)規(guī)則的方法 163
6.3.3
檢查冗余的多層關聯(lián)規(guī)則 166
6.4
由關系數據庫和數據倉庫挖掘多維
關聯(lián)規(guī)則 167
6.4.1
多維關聯(lián)規(guī)則 167
6.4.2
使用量化屬性的靜態(tài)離散化挖掘
多維關聯(lián)規(guī)則 168
6.4.3
挖掘量化關聯(lián)規(guī)則 169
6.4.4
挖掘基于距離的關聯(lián)規(guī)則 171
6.5
由關聯(lián)挖掘到相關分析 172
6.5.1
強關聯(lián)規(guī)則不一定是有趣的:
一個例子 172
6.5.2
由關聯(lián)分析到相關分析 173
6.6
基于約束的關聯(lián)挖掘 174
6.6.1
關聯(lián)規(guī)則的元規(guī)則制導挖掘 174
6.6.2
用附加的規(guī)則約束制導的挖掘 175
6.7
小結 179
習題 180
文獻注釋 183
第7章
分類和預測 185
7.1
什么是分類,?什么是預測 185
7.2
關于分類和預測的問題 187
7.2.1
準備分類和預測的數據 187
7.2.2
比較分類方法 187
7.3
用判定樹歸納分類 188
7.3.1
判定樹歸納 189
7.3.2
樹剪枝 192
7.3.3
由判定樹提取分類規(guī)則 192
7.3.4
基本判定樹歸納的加強 193
7.3.5
判定樹歸納的可伸縮性 194
7.3.6
集成數據倉庫技術和判定樹
歸納 195
7.4
貝葉斯分類 196
7.4.1
貝葉斯定理 196
7.4.2
樸素貝葉斯分類 197
7.4.3
貝葉斯信念網絡 199
7.4.4
訓練貝葉斯信念網絡 200
7.5
后向傳播分類 201
7.5.1
多層前饋神經網絡 201
7.5.2
定義網絡拓撲 202
7.5.3
后向傳播 202
7.5.4
后向傳播和可解釋性 206
7.6
基于源自關聯(lián)規(guī)則挖掘概念的
分類 207
7.7
其他分類方法 209
7.7.1
k-最臨近分類 209
7.7.2
基于案例的推理 209
7.7.3
遺傳算法 210
7.7.4
粗糙集方法 210
7.7.5
模糊集方法 211
7.8
預測 212
7.8.1
線性回歸和多元回歸 212
7.8.2
非線性回歸 213
7.8.3
其他回歸模型 214
7.9
分類法的準確性 214
7.9.1
評估分類法的準確率 214
7.9.2
提高分類法的準確率 215
7.9.3
準確率足夠判定分類法嗎 216
7.10
小結 217
習題 218
文獻注釋 219
第8章
聚類分析 223
8.1
什么是聚類分析 223
8.2
聚類分析中的數據類型 225
8.2.1
區(qū)間標度變量 226
8.2.2
二元變量 227
8.2.3
標稱型.?序數型和比例標度型
變量 228
8.2.4
混合類型的變量 230
8.3
主要聚類方法的分類 231
8.4
劃分方法 232
8.4.1
典型的劃分方法:k-平均
和k-中心點 232
8.4.2
大型數據庫中的劃分方法:從k-中
心點到CLARANS 235
8.5
層次方法 236
8.5.1
凝聚的和分裂的層次聚類 236
8.5.2
BIRCH:利用層次方法的平衡
迭代歸約和聚類 238
8.5.3
CURE:利用代表點聚類 239
8.5.4
Chameleon(變色龍):一個利用
動態(tài)模型的層次聚類算法 240
8.6
基于密度的方法 242
8.6.1
DBSCAN:一個基于高密度連接
區(qū)域的密度聚類方法 242
8.6.2
OPTICS:通過對象排序識別
聚類結構 243
8.6.3
DENCLUE:基于密度分布函數
的聚類 245
8.7
基于網格的方法 246
8.7.1
STING:統(tǒng)計信息網格 247
8.7.2
WaveCluster:采用小波變換聚類 248
8.7.3
CLIQUE:聚類高維空間 249
8.8
基于模型的聚類方法 251
8.8.1
統(tǒng)計學方法 251
8.8.2
神經網絡方法 253
8.9
孤立點分析 254
8.9.1
基于統(tǒng)計的孤立點檢測 255
8.9.2
基于距離的孤立點檢測 256
8.9.3
基于偏離的孤立點檢測 257
8.10
小結 259
習題 260
文獻注釋 261
第9章
復雜類型數據的挖掘 263
9.1
復雜數據對象的多維分析
和描述性挖掘 263
9.1.1
結構化數據的概化 263
9.1.2
空間和多媒體數據概化中的聚集
和近似計算 264
9.1.3
對象標識符和類/子類層次的概化 265
9.1.4
類復合層次的概化 265
9.1.5
對象立方體的構造與挖掘 266
9.1.6
用分而治之方法對規(guī)劃數據庫進行
基于概化的挖掘 266
9.2
空間數據庫挖掘 269
9.2.1
空間數據立方體構造
和空間OLAP 270
9.2.2
空間關聯(lián)分析 273
9.2.3
空間聚類方法 273
9.2.4
空間分類和空間趨勢分析 274
9.2.5
光柵數據庫挖掘 274
9.3
多媒體數據庫挖掘 274
9.3.1
多媒體數據的相似性搜索 275
9.3.2
多媒體數據的多維分析 276
9.3.3
多媒體數據的分類和預測分析 277
9.3.4
多媒體數據中的關聯(lián)規(guī)則挖掘 277
9.4
時序數據和序列數據的挖掘 278
9.4.1
趨勢分析 279
9.4.2
時序分析中的相似搜索 280
9.4.3
序列模式挖掘 283
9.4.4
周期分析 284
9.5
文本數據庫挖掘 285
9.5.1
文本數據分析和信息檢索 285
9.5.2
文本挖掘:基于關鍵字的關聯(lián)和
文檔分類 289
9.6
Web挖掘 290
9.6.1
挖掘Web鏈接結構,?識別權威
Web頁面 291
9.6.2
Web文檔的自動分類 293
9.6.3
多層Web信息庫的構造 293
9.6.4
Web使用記錄的挖掘 294
9.7
小結 295
習題 296
文獻注釋 297
第10章
數據挖掘的應用和發(fā)展趨勢 301
10.1
數據挖掘的應用 301
10.1.1
針對生物醫(yī)學和DNA數據分析
的數據挖掘 301
10.1.2
針對金融數據分析的數據挖掘 302
10.1.3
零售業(yè)中的數據挖掘 303
10.1.4
電信業(yè)中的數據挖掘 304
10.2
數據挖掘系統(tǒng)產品和研究原型 305
10.2.1
怎樣選擇一個數據挖掘系統(tǒng) 305
10.2.2
商用數據挖掘系統(tǒng)的例子 307
10.3
數據挖掘的其他主題 308
10.3.1
視頻和音頻數據挖掘 308
10.3.2
科學和統(tǒng)計數據挖掘 311
10.3.3
數據挖掘的理論基礎 312
10.3.4
數據挖掘和智能查詢應答 313
10.4
數據挖掘的社會影響 314
10.4.1
數據挖掘是宣傳出來的還是持久
的穩(wěn)定增長的商業(yè) 314
10.4.2
數據挖掘只是經理的事還是
每個人的事 316
10.4.3
數據挖掘對隱私或數據安全構
成威脅嗎 317
10.5
數據挖掘的發(fā)展趨勢 318
10.6
小結 319
習題 320
文獻注釋 321
附錄A
Microsoft''''s?OLE?DB?for?Data
Mining簡介 323
A.1
創(chuàng)建DMM對象 324
A.2
向模型裝入訓練數據并對模型
進行訓練 325
A.3
模型的使用 325
附錄B
DBMiner簡介 328
B.1
系統(tǒng)結構 328
B.2
輸入和輸出 329
B.3
系統(tǒng)支持的數據挖掘任務 329
B.4
對任務和方法選擇的支持 332
B.5
對KDD處理過程的支持 332
B.6
主要應用 332
B.7
現狀 332
參考文獻 333
索引 362

本目錄推薦

掃描二維碼
Copyright ? 讀書網 ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號