注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件Hadoop大數(shù)據(jù)技術(shù)應(yīng)用實踐

Hadoop大數(shù)據(jù)技術(shù)應(yīng)用實踐

Hadoop大數(shù)據(jù)技術(shù)應(yīng)用實踐

定 價:¥46.80

作 者: 李鳳蓮 著
出版社: 北京師范大學(xué)出版社
叢編項: 普通高等教育“十三五”規(guī)劃教材?大數(shù)據(jù)技術(shù)應(yīng)用實踐系列
標(biāo) 簽: 暫缺

ISBN: 9787303247219 出版時間: 2020-03-01 包裝: 平裝
開本: 16開 頁數(shù): 312 字?jǐn)?shù):  

內(nèi)容簡介

  本書系統(tǒng)闡述了Hadoop大數(shù)據(jù)技術(shù)應(yīng)用實踐的原理、方法和應(yīng)用相關(guān)知識,同時給出了每一章內(nèi)容對應(yīng)的實現(xiàn)指令或源程序。全書共九章內(nèi)容。內(nèi)容由淺入深,分為基礎(chǔ)篇及提高篇兩部分,其中第1章到第4章為基礎(chǔ)篇,內(nèi)容涵蓋Hadoop初識簡介、Hadoop基礎(chǔ)環(huán)境搭建、分布式存儲HDFS介紹以及MapReduce編程模型等知識,提高篇包括Hadoop數(shù)據(jù)倉庫Hive、Hadoop數(shù)據(jù)庫Hbase、Pig語言、Hadoop項目案例以及Mahout項目案例等較深入的知識。本書理論結(jié)合實際,每一個章節(jié)都包含有相關(guān)內(nèi)容的實踐部分,以便讀者在了解相關(guān)知識后,能及時進(jìn)行項目的實踐,有助于提高讀者動手實踐的能力。每章提供適量習(xí)題,進(jìn)一步加深對內(nèi)容的理解。

作者簡介

  太原理工大學(xué)信息與計算機(jī)學(xué)院教師,博士,教授,碩士生導(dǎo)師。2012年以來,主持和參與山西省自然科學(xué)基金、博士后基金(面上資助)項目、山西省科技重大專項、山西省科技攻關(guān)計劃項目以及校教改項目等多項;獲批2017年教育部產(chǎn)學(xué)合作紅亞科技協(xié)同育人項目1項;為2013年科技部重點領(lǐng)域創(chuàng)新團(tuán)隊核心成員; 2015年獲山西省科技進(jìn)步二等獎一項,2016年獲煤炭工業(yè)協(xié)會三等獎一項。在Information Sciences等刊物發(fā)表SCI及EI收錄學(xué)術(shù)論文30余篇;獲批授權(quán)國家發(fā)明專利3項;申請國家發(fā)明專利9項,2016年以第一副主編參與編寫“十二五”規(guī)劃教材《數(shù)字語音處理及Matlab仿真》一部,2013年副主編參與編寫部委級規(guī)劃教材《電路分析基礎(chǔ)》1部;2010年參編兩本部委級規(guī)劃教材,指導(dǎo)研究生14名。承擔(dān)課程:《電路分析基礎(chǔ)》、《可編程控制器原理》、《現(xiàn)代信號處理理論與方法》、《大數(shù)據(jù)技術(shù)與應(yīng)用》

圖書目錄

目  錄 IV
第1章  Hadoop初識簡介 1
1.1  Hadoop介紹 1
1.1.1  Hadoop簡述 1
1.1.2  Hadoop的特點 1
1.1.3  Hadoop的發(fā)展 3
1.2  Hadoop體系架構(gòu) 3
1.2.1  HDFS結(jié)構(gòu) 3
1.2.2  MapReduce結(jié)構(gòu) 4
1.2.3  HBase結(jié)構(gòu) 6
1.2.4  Hive結(jié)構(gòu) 6
1.2.5  Mahout介紹 7
1.3  Hadoop軟件安裝及配置 8
1.3.1  編譯安裝與基礎(chǔ)介紹 8
1.3.2  Linux環(huán)境下安裝 12
1.3.3  安裝配置環(huán)境變量 15
1.3.4  設(shè)置免密碼登陸 16
1.3.5  配置時間同步 16
本章習(xí)題 21
第2章  Hadoop開源項目及偽分布式實現(xiàn) 23
2.1  Zookeeper簡介 23
2.1.1  Zookeeper介紹 23
2.1.2  Zookeeper用途及特點 24
2.1.3  Zookeeper安裝使用 25
2.2  單節(jié)點偽分布式安裝 29
2.2.1  Hadoop配置文件說明 29
2.2.2  格式化HDFS文件系統(tǒng) 30
2.2.3  進(jìn)程管理 30
本章習(xí)題 34
第3章  分布式存儲HDFS 36
3.1  HDFS分布式文件系統(tǒng)安裝 36
3.1.1  HDFS介紹 36
3.1.2  HDFS的安裝過程 36
3.1.3  HDFS常用的一些簡單的Shell命令 40
3.2  HDFS的相關(guān)概念 40
3.2.1  塊及數(shù)據(jù)分片 40
3.2.1  名稱節(jié)點NameNode和數(shù)據(jù)節(jié)點DataNode 41
3.2.3  第二個名稱節(jié)點SecondaryNameNode 43
3.3  HDFS的文件存儲機(jī)制 45
3.3.1  文件存儲機(jī)制概述 45
3.3.2  HDFS的命名空間 45
3.3.3  客戶端 46
3.3.4  通信協(xié)議 46
3.4  HDFS的數(shù)據(jù)存儲管理 46
3.4.1  數(shù)據(jù)冗余存儲 46
3.4.2  數(shù)據(jù)存取策略 46
3.4.3  數(shù)據(jù)錯誤與恢復(fù) 48
3.5  HDFS的數(shù)據(jù)讀寫過程 48
3.5.1  讀取數(shù)據(jù)過程 48
3.5.2  寫入數(shù)據(jù)過程 49
3.6  分布式及RPC通信簡介 50
3.6.1  什么是RPC 50
3.6.2  如何實現(xiàn)一個RPC框架 50
3.6.3  Hadoop的RPC框架 50
3.6.4  實驗過程 50
3.7  創(chuàng)建HDFS項目 55
3.7.1  Hadoop的Shell命令 55
3.7.2  利用Java API與HDFS進(jìn)行人機(jī)交互 56
本章習(xí)題 63
第4章  MapReduce編程模型 65
4.1  MapReduce簡介 65
4.1.1  MapReduce產(chǎn)生 65
4.1.2  MapReduce的數(shù)據(jù)類型 65
4.2  MapReduce架構(gòu) 66
4.2.1  MapReduce的執(zhí)行過程 66
4.2.2  Mapper過程 71
4.2.3  Reducer過程 71
4.2.4  Shuffle過程 71
4.3  MapReduce接口類 72
4.3.1  輸入的處理類 72
4.3.2  輸出的處理類 74
4.4  MapReduce編程模型實現(xiàn) 74
4.4.1  創(chuàng)建項目 74
4.4.2  編寫MapReduce程序代碼 75
4.4.3  本地運行測試 77
4.4.4  Jar打包 79
4.5  MapReduce典型案例-WordCount 79
4.5.1  WordCount任務(wù)目標(biāo) 79
4.5.2  基于MapReduce的WordCount設(shè)計思路 80
4.5.3  任務(wù)執(zhí)行 80
4.5.4  實例演示 81
4.6  分布式資源調(diào)度系統(tǒng)YARN的安裝 83
4.6.1  YARN的概念 83
4.6.2  YARN的運行機(jī)制 84
4.6.3  YARN資源調(diào)度方式 84
4.6.4  YARN的安裝配置 85
4.7  MapReduce和YARN命令 88
4.7.1  Hadoop的shell腳本 88
4.7.2  集群上運行介紹 90
4.7.3  實驗過程 91
本章習(xí)題 94
第5章  Hadoop數(shù)據(jù)倉庫Hive 97
5.1  Hive簡介 97
5.1.1  Hive設(shè)計特點 97
5.1.2  Hive系統(tǒng)架構(gòu) 98
5.1.3  Hive數(shù)據(jù)模型 98
5.1.4  Hive安裝 99
5.2  Hive DDL 104
5.2.1  DDL基本格式 104
5.2.2  Hive數(shù)據(jù)類型 105
5.2.3  使用Hive創(chuàng)建數(shù)據(jù)庫 106
5.3  Hive DML 113
5.3.1  數(shù)據(jù)操縱語言DML操作 113
5.3.2  類型 113
5.3.3  向Hive插入數(shù)據(jù) 114
5.3.4  Hive的其他語句 116
5.4  基于Hive的UDF V1.0 118
5.4.1  UDF的使用介紹 118
5.4.2  實驗操作 120
5.5  Hive數(shù)據(jù)清洗項目 122
5.5.1  數(shù)據(jù)清洗介紹 122
5.5.2  用戶關(guān)系模型介紹 124
5.5.3  挖掘用戶的基本問題 124
5.5.4  Hive數(shù)據(jù)清洗項目使用 125
5.6  Hive統(tǒng)計UV項目 127
5.6.1  PV統(tǒng)計(頁面訪問量) 127
5.6.2  UV統(tǒng)計(獨立訪客) 128
5.6.3  Hive統(tǒng)計UV項目的使用 128
本章習(xí)題 131
第6章  Hadoop數(shù)據(jù)庫HBase 133
6.1  HBase簡介 133
6.2  HBase的shell應(yīng)用v2.0 134
6.2.1  HBase體系架構(gòu) 134
6.2.2  HBase邏輯視圖 137
6.2.3  HBase的使用操作 138
6.3  使用Hive操作HBase 140
6.3.1  Hive整合HBase原理 140
6.3.2  操作使用 141
6.4  HBase的JavaAPI應(yīng)用 142
6.4.1  創(chuàng)建連接 142
6.4.2  實驗步驟 144
6.5  HBase學(xué)生選課案例 147
6.5.1  學(xué)生選課案例簡介 147
6.5.2  學(xué)生選課案例講解與操作 149
6.6  HBase微博案例 155
6.6.1  微博案例簡介 155
6.6.2  微博案例講解與操作 157
本章練習(xí) 164
第7章  Pig語言 166
7.1  Pig簡介 166
7.1.1  認(rèn)識Pig 166
7.1.2  Pig和MapReduce的區(qū)別 167
7.1.3  Pig的用途 168
7.1.4  Pig和Hive 168
7.2  Pig的安裝與運行 169
7.2.1  Pig包的下載 169
7.2.2  Pig的安裝 170
7.3  命令行交互工具Grunt 171
7.3.1  Grunt介紹 171
7.3.2  Grunt中輸入Pig Latin腳本 171
7.3.3  Grunt中使用HDFS命令 171
7.3.4  Grunt中控制Pig 172
7.3.5  實驗案例 172
7.4  Pig數(shù)據(jù)模型 175
7.4.1  數(shù)據(jù)類型 175
7.4.2  模式 177
7.4.3  數(shù)據(jù)模型的使用 178
7.5  Pig Latin基礎(chǔ)知識 179
7.5.1  Pig Latin介紹 179
7.5.2  輸入和輸出 180
7.5.3  Pig Latin的使用 181
7.6  Pig Latin關(guān)系操作 182
7.6.1  Foreach數(shù)據(jù)轉(zhuǎn)換 182
7.6.2  Filter過濾 182
7.6.3  Group分組 182
7.6.7  Order by排序 182
7.6.5  Distinct 183
7.6.6  Join 183
7.6.7  Limit 183
7.6.8  Sample 183
7.6.9  Parallel 183
7.6.10  運行Pig程序示例 183
7.7  Pig Latin高級應(yīng)用 191
7.7.1  Group應(yīng)用 191
7.7.2  Cross應(yīng)用 192
7.7.3  Distinct應(yīng)用 192
7.7.4  Filter應(yīng)用 192
7.7.5  Foreach應(yīng)用 192
7.7.6  復(fù)雜關(guān)系應(yīng)用 192
7.7.7  在Pig中集成遺留代碼和MapReduce程序 194
7.7.8  非線性數(shù)據(jù)流 194
7.7.9  執(zhí)行過程控制 195
7.7.10  Pig Latin預(yù)處理器 195
7.7.11  運行Pig程序示例 195
本章練習(xí) 202
第8章  Hadoop項目案例 204
8.1  QQ好友推薦算法 204
8.1.1  實現(xiàn)思路 204
8.1.2  代碼實現(xiàn) 204
8.2  PageRank算法 209
8.2.1  PageRank算法簡介 209
8.2.2  PageRank原理介紹 210
8.2.3  PageRank簡單計算 210
8.3  TF-IDF算法 213
8.3.1  TF-IDF簡介 213
8.3.2  TF-IDF實現(xiàn) 214
8.3.3  TF-IDF應(yīng)用 214
8.3.4  權(quán)重 214
8.4  數(shù)據(jù)關(guān)聯(lián)案例 222
8.4.1  常用思路 223
8.4.2  編碼思路 223
8.4.3  實驗 223
8.5  ETL案例 224
8.5.1  數(shù)據(jù)ETL 225
8.5.2  實驗 225
8.6  PV、UV統(tǒng)計案例 228
8.6.1  針對某一類網(wǎng)址的PV、UV 228
8.6.2  得到PV、UV的后續(xù)處理 229
8.6.3  實驗 229
8.7  用戶流失和新增分析案例 231
8.8  Hadoop總結(jié) 234
8.8.1  打包作業(yè) 234
8.8.2  啟動作業(yè) 235
8.8.3  提交命令封裝 236
本章習(xí)題 236
第9章  Mahout項目案例 239
9.1  Mahout環(huán)境配置 240
9.1.1  單機(jī)環(huán)境配置 240
9.1.2  基于Hadoop集群的Mahout環(huán)境配置 240
9.2  協(xié)同過濾推薦算法 243
9.2.1  Taste簡介 243
9.2.2  基于用戶的協(xié)同過濾算法 244
9.2.3  基于項目的協(xié)同過濾算法 247
9.2.4  基于ALS的矩陣分解算法 248
9.2.5  基于SVD的推薦算法 249
9.3  聚類算法 252
9.3.1  Canopy聚類 252
9.3.2  K-Means聚類 253
9.3.3  Fuzzy K-Means聚類算法 253
9.3.4  Streaming K-Means聚類 254
9.3.5  Spectral譜聚類算法類 255
9.4  分類算法 255
9.4.1  Logistic回歸算法 256
9.4.2  樸素貝葉斯分類器 258
9.4.3  隨機(jī)森林 258
9.4.4  隱馬爾科夫模型 259
本章習(xí)題 260
參考文獻(xiàn) 263
附錄 265
一.  本書中出現(xiàn)的專業(yè)術(shù)語縮寫英漢對照表 265
二.  習(xí)題參考答案 267
目  錄 IV
第1章  Hadoop初識簡介 1
1.1  Hadoop介紹 1
1.1.1  Hadoop簡述 1
1.1.2  Hadoop的特點 1
1.1.3  Hadoop的發(fā)展 3
1.2  Hadoop體系架構(gòu) 3
1.2.1  HDFS結(jié)構(gòu) 3
1.2.2  MapReduce結(jié)構(gòu) 4
1.2.3  HBase結(jié)構(gòu) 6
1.2.4  Hive結(jié)構(gòu) 6
1.2.5  Mahout介紹 7
1.3  Hadoop軟件安裝及配置 8
1.3.1  編譯安裝與基礎(chǔ)介紹 8
1.3.2  Linux環(huán)境下安裝 12
1.3.3  安裝配置環(huán)境變量 15
1.3.4  設(shè)置免密碼登陸 16
1.3.5  配置時間同步 16
本章習(xí)題 21
第2章  Hadoop開源項目及偽分布式實現(xiàn) 23
2.1  Zookeeper簡介 23
2.1.1  Zookeeper介紹 23
2.1.2  Zookeeper用途及特點 24
2.1.3  Zookeeper安裝使用 25
2.2  單節(jié)點偽分布式安裝 29
2.2.1  Hadoop配置文件說明 29
2.2.2  格式化HDFS文件系統(tǒng) 30
2.2.3  進(jìn)程管理 30
本章習(xí)題 34
第3章  分布式存儲HDFS 36
3.1  HDFS分布式文件系統(tǒng)安裝 36
3.1.1  HDFS介紹 36
3.1.2  HDFS的安裝過程 36
3.1.3  HDFS常用的一些簡單的Shell命令 40
3.2  HDFS的相關(guān)概念 40
3.2.1  塊及數(shù)據(jù)分片 40
3.2.1  名稱節(jié)點NameNode和數(shù)據(jù)節(jié)點DataNode 41
3.2.3  第二個名稱節(jié)點SecondaryNameNode 43
3.3  HDFS的文件存儲機(jī)制 45
3.3.1  文件存儲機(jī)制概述 45
3.3.2  HDFS的命名空間 45
3.3.3  客戶端 46
3.3.4  通信協(xié)議 46
3.4  HDFS的數(shù)據(jù)存儲管理 46
3.4.1  數(shù)據(jù)冗余存儲 46
3.4.2  數(shù)據(jù)存取策略 46
3.4.3  數(shù)據(jù)錯誤與恢復(fù) 48
3.5  HDFS的數(shù)據(jù)讀寫過程 48
3.5.1  讀取數(shù)據(jù)過程 48
3.5.2  寫入數(shù)據(jù)過程 49
3.6  分布式及RPC通信簡介 50
3.6.1  什么是RPC 50
3.6.2  如何實現(xiàn)一個RPC框架 50
3.6.3  Hadoop的RPC框架 50
3.6.4  實驗過程 50
3.7  創(chuàng)建HDFS項目 55
3.7.1  Hadoop的Shell命令 55
3.7.2  利用Java API與HDFS進(jìn)行人機(jī)交互 56
本章習(xí)題 63
第4章  MapReduce編程模型 65
4.1  MapReduce簡介 65
4.1.1  MapReduce產(chǎn)生 65
4.1.2  MapReduce的數(shù)據(jù)類型 65
4.2  MapReduce架構(gòu) 66
4.2.1  MapReduce的執(zhí)行過程 66
4.2.2  Mapper過程 71
4.2.3  Reducer過程 71
4.2.4  Shuffle過程 71
4.3  MapReduce接口類 72
4.3.1  輸入的處理類 72
4.3.2  輸出的處理類 74
4.4  MapReduce編程模型實現(xiàn) 74
4.4.1  創(chuàng)建項目 74
4.4.2  編寫MapReduce程序代碼 75
4.4.3  本地運行測試 77
4.4.4  Jar打包 79
4.5  MapReduce典型案例-WordCount 79
4.5.1  WordCount任務(wù)目標(biāo) 79
4.5.2  基于MapReduce的WordCount設(shè)計思路 80
4.5.3  任務(wù)執(zhí)行 80
4.5.4  實例演示 81
4.6  分布式資源調(diào)度系統(tǒng)YARN的安裝 83
4.6.1  YARN的概念 83
4.6.2  YARN的運行機(jī)制 84
4.6.3  YARN資源調(diào)度方式 84
4.6.4  YARN的安裝配置 85
4.7  MapReduce和YARN命令 88
4.7.1  Hadoop的shell腳本 88
4.7.2  集群上運行介紹 90
4.7.3  實驗過程 91
本章習(xí)題 94
第5章  Hadoop數(shù)據(jù)倉庫Hive 97
5.1  Hive簡介 97
5.1.1  Hive設(shè)計特點 97
5.1.2  Hive系統(tǒng)架構(gòu) 98
5.1.3  Hive數(shù)據(jù)模型 98
5.1.4  Hive安裝 99
5.2  Hive DDL 104
5.2.1  DDL基本格式 104
5.2.2  Hive數(shù)據(jù)類型 105
5.2.3  使用Hive創(chuàng)建數(shù)據(jù)庫 106
5.3  Hive DML 113
5.3.1  數(shù)據(jù)操縱語言DML操作 113
5.3.2  類型 113
5.3.3  向Hive插入數(shù)據(jù) 114
5.3.4  Hive的其他語句 116
5.4  基于Hive的UDF V1.0 118
5.4.1  UDF的使用介紹 118
5.4.2  實驗操作 120
5.5  Hive數(shù)據(jù)清洗項目 122
5.5.1  數(shù)據(jù)清洗介紹 122
5.5.2  用戶關(guān)系模型介紹 124
5.5.3  挖掘用戶的基本問題 124
5.5.4  Hive數(shù)據(jù)清洗項目使用 125
5.6  Hive統(tǒng)計UV項目 127
5.6.1  PV統(tǒng)計(頁面訪問量) 127
5.6.2  UV統(tǒng)計(獨立訪客) 128
5.6.3  Hive統(tǒng)計UV項目的使用 128
本章習(xí)題 131
第6章  Hadoop數(shù)據(jù)庫HBase 133
6.1  HBase簡介 133
6.2  HBase的shell應(yīng)用v2.0 134
6.2.1  HBase體系架構(gòu) 134
6.2.2  HBase邏輯視圖 137
6.2.3  HBase的使用操作 138
6.3  使用Hive操作HBase 140
6.3.1  Hive整合HBase原理 140
6.3.2  操作使用 141
6.4  HBase的JavaAPI應(yīng)用 142
6.4.1  創(chuàng)建連接 142
6.4.2  實驗步驟 144
6.5  HBase學(xué)生選課案例 147
6.5.1  學(xué)生選課案例簡介 147
6.5.2  學(xué)生選課案例講解與操作 149
6.6  HBase微博案例 155
6.6.1  微博案例簡介 155
6.6.2  微博案例講解與操作 157
本章練習(xí) 164
第7章  Pig語言 166
7.1  Pig簡介 166
7.1.1  認(rèn)識Pig 166
7.1.2  Pig和MapReduce的區(qū)別 167
7.1.3  Pig的用途 168
7.1.4  Pig和Hive 168
7.2  Pig的安裝與運行 169
7.2.1  Pig包的下載 169
7.2.2  Pig的安裝 170
7.3  命令行交互工具Grunt 171
7.3.1  Grunt介紹 171
7.3.2  Grunt中輸入Pig Latin腳本 171
7.3.3  Grunt中使用HDFS命令 171
7.3.4  Grunt中控制Pig 172
7.3.5  實驗案例 172
7.4  Pig數(shù)據(jù)模型 175
7.4.1  數(shù)據(jù)類型 175
7.4.2  模式 177
7.4.3  數(shù)據(jù)模型的使用 178
7.5  Pig Latin基礎(chǔ)知識 179
7.5.1  Pig Latin介紹 179
7.5.2  輸入和輸出 180
7.5.3  Pig Latin的使用 181
7.6  Pig Latin關(guān)系操作 182
7.6.1  Foreach數(shù)據(jù)轉(zhuǎn)換 182
7.6.2  Filter過濾 182
7.6.3  Group分組 182
7.6.7  Order by排序 182
7.6.5  Distinct 183
7.6.6  Join 183
7.6.7  Limit 183
7.6.8  Sample 183
7.6.9  Parallel 183
7.6.10  運行Pig程序示例 183
7.7  Pig Latin高級應(yīng)用 191
7.7.1  Group應(yīng)用 191
7.7.2  Cross應(yīng)用 192
7.7.3  Distinct應(yīng)用 192
7.7.4  Filter應(yīng)用 192
7.7.5  Foreach應(yīng)用 192
7.7.6  復(fù)雜關(guān)系應(yīng)用 192
7.7.7  在Pig中集成遺留代碼和MapReduce程序 194
7.7.8  非線性數(shù)據(jù)流 194
7.7.9  執(zhí)行過程控制 195
7.7.10  Pig Latin預(yù)處理器 195
7.7.11  運行Pig程序示例 195
本章練習(xí) 202
第8章  Hadoop項目案例 204
8.1  QQ好友推薦算法 204
8.1.1  實現(xiàn)思路 204
8.1.2  代碼實現(xiàn) 204
8.2  PageRank算法 209
8.2.1  PageRank算法簡介 209
8.2.2  PageRank原理介紹 210
8.2.3  PageRank簡單計算 210
8.3  TF-IDF算法 213
8.3.1  TF-IDF簡介 213
8.3.2  TF-IDF實現(xiàn) 214
8.3.3  TF-IDF應(yīng)用 214
8.3.4  權(quán)重 214
8.4  數(shù)據(jù)關(guān)聯(lián)案例 222
8.4.1  常用思路 223
8.4.2  編碼思路 223
8.4.3  實驗 223
8.5  ETL案例 224
8.5.1  數(shù)據(jù)ETL 225
8.5.2  實驗 225
8.6  PV、UV統(tǒng)計案例 228
8.6.1  針對某一類網(wǎng)址的PV、UV 228
8.6.2  得到PV、UV的后續(xù)處理 229
8.6.3  實驗 229
8.7  用戶流失和新增分析案例 231
8.8  Hadoop總結(jié) 234
8.8.1  打包作業(yè) 234
8.8.2  啟動作業(yè) 235
8.8.3  提交命令封裝 236
本章習(xí)題 236
第9章  Mahout項目案例 239
9.1  Mahout環(huán)境配置 240
9.1.1  單機(jī)環(huán)境配置 240
9.1.2  基于Hadoop集群的Mahout環(huán)境配置 240
9.2  協(xié)同過濾推薦算法 243
9.2.1  Taste簡介 243
9.2.2  基于用戶的協(xié)同過濾算法 244
9.2.3  基于項目的協(xié)同過濾算法 247
9.2.4  基于ALS的矩陣分解算法 248
9.2.5  基于SVD的推薦算法 249
9.3  聚類算法 252
9.3.1  Canopy聚類 252
9.3.2  K-Means聚類 253
9.3.3  Fuzzy K-Means聚類算法 253
9.3.4  Streaming K-Means聚類 254
9.3.5  Spectral譜聚類算法類 255
9.4  分類算法 255
9.4.1  Logistic回歸算法 256
9.4.2  樸素貝葉斯分類器 258
9.4.3  隨機(jī)森林 258
9.4.4  隱馬爾科夫模型 259
本章習(xí)題 260
參考文獻(xiàn) 263
附錄 265
一.  本書中出現(xiàn)的專業(yè)術(shù)語縮寫英漢對照表 265
二.  習(xí)題參考答案 267
 

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號