注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫數(shù)據(jù)庫設(shè)計(jì)/管理大數(shù)據(jù)技術(shù)原理與應(yīng)用(第2版)

大數(shù)據(jù)技術(shù)原理與應(yīng)用(第2版)

大數(shù)據(jù)技術(shù)原理與應(yīng)用(第2版)

定 價(jià):¥49.80

作 者: 林子雨
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 計(jì)算機(jī)/網(wǎng)絡(luò) 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 數(shù)據(jù)庫

ISBN: 9787115443304 出版時(shí)間: 2017-01-01 包裝: 平裝
開本: 16開 頁數(shù): 286 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

 ?。?)概念篇:介紹當(dāng)前緊密關(guān)聯(lián)的*IT領(lǐng)域技術(shù)云計(jì)算、大數(shù)據(jù)和物聯(lián)網(wǎng)。(2)大數(shù)據(jù)存儲(chǔ)與管理篇:介紹分布式數(shù)據(jù)存儲(chǔ)的概念、原理和技術(shù),包括HDFS、HBase、NoSQL數(shù)據(jù)庫、云數(shù)據(jù)庫。(3)大數(shù)據(jù)處理與分析篇:介紹MapReduce分布式編程框架、基于內(nèi)存的分布式計(jì)算框架Spark、圖計(jì)算、流計(jì)算、數(shù)據(jù)可視化。(4)大數(shù)據(jù)應(yīng)用篇:介紹基于大數(shù)據(jù)技術(shù)的推薦系統(tǒng)。

作者簡(jiǎn)介

  林子雨,北大博士,廈門大學(xué)計(jì)算機(jī)科學(xué)系老師,中國(guó)高校首個(gè)"數(shù)字教師"的提出者和建設(shè)者。在數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)等領(lǐng)域有著十多年的知識(shí)積累,對(duì)各個(gè)領(lǐng)域知識(shí)都有比較深入的了解,有比較寬泛的視野。

圖書目錄

第一篇 大數(shù)據(jù)基礎(chǔ)
第1章 大數(shù)據(jù)概述 2
1.1 大數(shù)據(jù)時(shí)代 2
1.1.1 第三次信息化浪潮 2
1.1.2 信息科技為大數(shù)據(jù)時(shí)代提供
技術(shù)支撐 3
1.1.3 數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)時(shí)代的來臨 5
1.1.4 大數(shù)據(jù)的發(fā)展歷程 6
1.2 大數(shù)據(jù)的概念 7
1.2.1 數(shù)據(jù)量大 7
1.2.2 數(shù)據(jù)類型繁多 8
1.2.3 處理速度快 9
1.2.4 價(jià)值密度低 9
1.3 大數(shù)據(jù)的影響 9
1.3.1 大數(shù)據(jù)對(duì)科學(xué)研究的影響 10
1.3.2 大數(shù)據(jù)對(duì)思維方式的影響 11
1.3.3 大數(shù)據(jù)對(duì)社會(huì)發(fā)展的影響 11
1.3.4 大數(shù)據(jù)對(duì)就業(yè)市場(chǎng)的影響 12
1.3.5 大數(shù)據(jù)對(duì)人才培養(yǎng)的影響 13
1.4 大數(shù)據(jù)的應(yīng)用 14
1.5 大數(shù)據(jù)關(guān)鍵技術(shù) 14
1.6 大數(shù)據(jù)計(jì)算模式 15
1.6.1 批處理計(jì)算 16
1.6.2 流計(jì)算 16
1.6.3 圖計(jì)算 16
1.6.4 查詢分析計(jì)算 17
1.7 大數(shù)據(jù)產(chǎn)業(yè) 17
1.8 大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng) 18
1.8.1 云計(jì)算 18
1.8.2 物聯(lián)網(wǎng) 21
1.8.3 大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)的關(guān)系 25
1.9 本章小結(jié) 26
1.10 習(xí)題 26
第2章 大數(shù)據(jù)處理架構(gòu)Hadoop 28
2.1 概述 28
2.1.1 Hadoop簡(jiǎn)介 28
2.1.2 Hadoop的發(fā)展簡(jiǎn)史 28
2.1.3 Hadoop的特性 29
2.1.4 Hadoop的應(yīng)用現(xiàn)狀 29
2.1.5 Hadoop的版本 30
2.2 Hadoop生態(tài)系統(tǒng) 30
2.2.1 HDFS 31
2.2.2 HBase 31
2.2.3 MapReduce 31
2.2.4 Hive 32
2.2.5 Pig 32
2.2.6 Mahout 32
2.2.7 Zookeeper 32
2.2.8 Flume 32
2.2.9 Sqoop 32
2.2.10 Ambari 33
2.3 Hadoop的安裝與使用 33
2.3.1 創(chuàng)建Hadoop用戶 33
2.3.2 Java的安裝 34
2.3.3 SSH登錄權(quán)限設(shè)置 34
2.3.4 安裝單機(jī)Hadoop 34
2.3.5 Hadoop偽分布式安裝 35
2.4 本章小結(jié) 37
2.5 習(xí)題 38
實(shí)驗(yàn)1 安裝Hadoop 38
第二篇 大數(shù)據(jù)存儲(chǔ)與管理
第3章 分布式文件系統(tǒng)HDFS 42
3.1 分布式文件系統(tǒng) 42
3.1.1 計(jì)算機(jī)集群結(jié)構(gòu) 42
3.1.2 分布式文件系統(tǒng)的結(jié)構(gòu) 43
3.1.3 分布式文件系統(tǒng)的設(shè)計(jì)需求 44
3.2 HDFS簡(jiǎn)介 44
3.3 HDFS的相關(guān)概念 45
3.3.1 塊 45
3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn) 46
3.3.3 第二名稱節(jié)點(diǎn) 47
3.4 HDFS體系結(jié)構(gòu) 48
3.4.1 概述 48
3.4.2 HDFS命名空間管理 49
3.4.3 通信協(xié)議 49
3.4.4 客戶端 50
3.4.5 HDFS體系結(jié)構(gòu)的局限性 50
3.5 HDFS的存儲(chǔ)原理 50
3.5.1 數(shù)據(jù)的冗余存儲(chǔ) 50
3.5.2 數(shù)據(jù)存取策略 51
3.5.3 數(shù)據(jù)錯(cuò)誤與恢復(fù) 52
3.6 HDFS的數(shù)據(jù)讀寫過程 53
3.6.1 讀數(shù)據(jù)的過程 53
3.6.2 寫數(shù)據(jù)的過程 54
3.7 HDFS編程實(shí)踐 55
3.7.1 HDFS常用命令 55
3.7.2 HDFS的Web界面 56
3.7.3 HDFS常用Java API及應(yīng)用實(shí)例 57
3.8 本章小結(jié) 60
3.9 習(xí)題 61
實(shí)驗(yàn)2 熟悉常用的HDFS操作 61
第4章 分布式數(shù)據(jù)庫HBase 63
4.1 概述 63
4.1.1 從BigTable說起 63
4.1.2 HBase簡(jiǎn)介 63
4.1.3 HBase與傳統(tǒng)關(guān)系數(shù)據(jù)庫的
對(duì)比分析 64
4.2 HBase訪問接口 65
4.3 HBase數(shù)據(jù)模型 66
4.3.1 數(shù)據(jù)模型概述 66
4.3.2 數(shù)據(jù)模型的相關(guān)概念 66
4.3.3 數(shù)據(jù)坐標(biāo) 67
4.3.4 概念視圖 68
4.3.5 物理視圖 69
4.3.6 面向列的存儲(chǔ) 69
4.4 HBase的實(shí)現(xiàn)原理 71
4.4.1 HBase的功能組件 71
4.4.2 表和Region 71
4.4.3 Region的定位 72
4.5 HBase運(yùn)行機(jī)制 74
4.5.1 HBase系統(tǒng)架構(gòu) 74
4.5.2 Region服務(wù)器的工作原理 76
4.5.3 Store的工作原理 77
4.5.4 HLog的工作原理 77
4.6 HBase編程實(shí)踐 78
4.6.1 HBase常用的Shell命令 78
4.6.2 HBase常用的Java API及
應(yīng)用實(shí)例 80
4.7 本章小結(jié) 90
4.8 習(xí)題 90
實(shí)驗(yàn)3 熟悉常用的HBase操作 91
第5章 NoSQL數(shù)據(jù)庫 94
5.1 NoSQL簡(jiǎn)介 94
5.2 NoSQL興起的原因 95
5.2.1 關(guān)系數(shù)據(jù)庫無法滿足
Web 2.0的需求 95
5.2.2 關(guān)系數(shù)據(jù)庫的關(guān)鍵特性在Web 2.0時(shí)代成為“雞肋” 96
5.3 NoSQL與關(guān)系數(shù)據(jù)庫的比較 97
5.4 NoSQL的四大類型 98
5.4.1 鍵值數(shù)據(jù)庫 99
5.4.2 列族數(shù)據(jù)庫 100
5.4.3 文檔數(shù)據(jù)庫 100
5.4.4 圖數(shù)據(jù)庫 101
5.5 NoSQL的三大基石 101
5.5.1 CAP 101
5.5.2 BASE 103
5.5.3 最終一致性 104
5.6 從NoSQL到NewSQL數(shù)據(jù)庫 105
5.7 本章小結(jié) 107
5.8 習(xí)題 107
第6章 云數(shù)據(jù)庫 108
6.1 云數(shù)據(jù)庫概述 108
6.1.1 云計(jì)算是云數(shù)據(jù)庫興起的基礎(chǔ) 108
6.1.2 云數(shù)據(jù)庫的概念 109
6.1.3 云數(shù)據(jù)庫的特性 110
6.1.4 云數(shù)據(jù)庫是個(gè)性化數(shù)據(jù)
存儲(chǔ)需求的理想選擇 111
6.1.5 云數(shù)據(jù)庫與其他數(shù)據(jù)庫的關(guān)系 112
6.2 云數(shù)據(jù)庫產(chǎn)品 113
6.2.1 云數(shù)據(jù)庫廠商概述 113
6.2.2 Amazon的云數(shù)據(jù)庫產(chǎn)品 113
6.2.3 Google的云數(shù)據(jù)庫產(chǎn)品 114
6.2.4 微軟的云數(shù)據(jù)庫產(chǎn)品 114
6.2.5 其他云數(shù)據(jù)庫產(chǎn)品 115
6.3 云數(shù)據(jù)庫系統(tǒng)架構(gòu) 115
6.3.1 UMP系統(tǒng)概述 115
6.3.2 UMP系統(tǒng)架構(gòu) 116
6.3.3 UMP系統(tǒng)功能 118
6.4 云數(shù)據(jù)庫實(shí)踐 121
6.4.1 阿里云RDS簡(jiǎn)介 121
6.4.2 RDS中的概念 121
6.4.3 購買和使用RDS數(shù)據(jù)庫 122
6.4.4 將本地?cái)?shù)據(jù)庫遷移到云端RDS
數(shù)據(jù)庫 126
6.5 本章小結(jié) 127
6.6 習(xí)題 127
實(shí)驗(yàn)4 熟練使用RDS for MySQL
數(shù)據(jù)庫 128
第三篇 大數(shù)據(jù)處理與分析
第7章 MapReduce 132
7.1 概述 132
7.1.1 分布式并行編程 132
7.1.2 MapReduce模型簡(jiǎn)介 133
7.1.3 Map和Reduce函數(shù) 133
7.2 MapReduce的工作流程 134
7.2.1 工作流程概述 134
7.2.2 MapReduce的各個(gè)執(zhí)行階段 135
7.2.3 Shuffle過程詳解 136
7.3 實(shí)例分析:WordCount 139
7.3.1 WordCount的程序任務(wù) 139
7.3.2 WordCount的設(shè)計(jì)思路 139
7.3.3 WordCount的具體執(zhí)行過程 140
7.3.4 一個(gè)WordCount執(zhí)行過程的
實(shí)例 141
7.4 MapReduce的具體應(yīng)用 142
7.4.1 MapReduce在關(guān)系代數(shù)運(yùn)算中的應(yīng)用 142
7.4.2 分組與聚合運(yùn)算 144
7.4.3 矩陣-向量乘法 144
7.4.4 矩陣乘法 144
7.5 MapReduce編程實(shí)踐 145
7.5.1 任務(wù)要求 145
7.5.2 編寫Map處理邏輯 146
7.5.3 編寫Reduce處理邏輯 147
7.5.4 編寫main方法 147
7.5.5 編譯打包代碼以及運(yùn)行程序 148
7.6 本章小結(jié) 150
7.7 習(xí)題 151
實(shí)驗(yàn)5 MapReduce編程初級(jí)實(shí)踐 152
第8章 Hadoop再探討 155
8.1 Hadoop的優(yōu)化與發(fā)展 155
8.1.1 Hadoop的局限與不足 155
8.1.2 針對(duì)Hadoop的改進(jìn)與提升 156
8.2 HDFS2.0的新特性 156
8.2.1 HDFS HA 157
8.2.2 HDFS聯(lián)邦 158
8.3 新一代資源管理調(diào)度框架YARN 159
8.3.1 MapReduce1.0的缺陷 159
8.3.2 YARN設(shè)計(jì)思路 160
8.3.3 YARN體系結(jié)構(gòu) 161
8.3.4 YARN工作流程 163
8.3.5 YARN框架與MapReduce1.0
框架的對(duì)比分析 164
8.3.6 YARN的發(fā)展目標(biāo) 165
8.4 Hadoop生態(tài)系統(tǒng)中具有代表性的
功能組件 166
8.4.1 Pig 166
8.4.2 Tez 167
8.4.3 Kafka 169
8.5 本章小結(jié) 170
8.6 習(xí)題 170
第9章 Spark 172
9.1 概述 172
9.1.1 Spark簡(jiǎn)介 172
9.1.2 Scala簡(jiǎn)介 173
9.1.3 Spark與Hadoop的對(duì)比 174
9.2 Spark生態(tài)系統(tǒng) 175
9.3 Spark運(yùn)行架構(gòu) 177
9.3.1 基本概念 177
9.3.2 架構(gòu)設(shè)計(jì) 177
9.3.3 Spark運(yùn)行基本流程 178
9.3.4 RDD的設(shè)計(jì)與運(yùn)行原理 179
9.4 Spark的部署和應(yīng)用方式 184
9.4.1 Spark三種部署方式 184
9.4.2 從“Hadoop+Storm”架構(gòu)轉(zhuǎn)向
Spark架構(gòu) 185
9.4.3 Hadoop和Spark的統(tǒng)一部署 186
9.5 Spark編程實(shí)踐 186
9.5.1 啟動(dòng)Spark Shell 187
9.5.2 Spark RDD基本操作 187
9.5.3 Spark應(yīng)用程序 189
9.6 本章小結(jié) 192
9.7 習(xí)題 193
第10章 流計(jì)算 194
10.1 流計(jì)算概述 194
10.1.1 靜態(tài)數(shù)據(jù)和流數(shù)據(jù) 194
10.1.2 批量計(jì)算和實(shí)時(shí)計(jì)算 195
10.1.3 流計(jì)算的概念 196
10.1.4 流計(jì)算與Hadoop 196
10.1.5 流計(jì)算框架 197
10.2 流計(jì)算的處理流程 197
10.2.1 概述 197
10.2.2 數(shù)據(jù)實(shí)時(shí)采集 198
10.2.3 數(shù)據(jù)實(shí)時(shí)計(jì)算 198
10.2.4 實(shí)時(shí)查詢服務(wù) 199
10.3 流計(jì)算的應(yīng)用 199
10.3.1 應(yīng)用場(chǎng)景1:實(shí)時(shí)分析 199
10.3.2 應(yīng)用場(chǎng)景2:實(shí)時(shí)交通 200
10.4 開源流計(jì)算框架Storm 200
10.4.1 Storm簡(jiǎn)介 201
10.4.2 Storm的特點(diǎn) 201
10.4.3 Storm的設(shè)計(jì)思想 202
10.4.4 Storm的框架設(shè)計(jì) 203
10.4.5 Storm實(shí)例 204
10.5 Spark Streaming 206
10.5.1 Spark Streaming設(shè)計(jì) 206
10.5.2 Spark Streaming與Storm的
對(duì)比 207
10.6 本章小結(jié) 208
10.7 習(xí)題 208
第11章 圖計(jì)算 210
11.1 圖計(jì)算簡(jiǎn)介 210
11.1.1 傳統(tǒng)圖計(jì)算解決方案的
 不足之處 210
11.1.2 圖計(jì)算通用軟件 211
11.2 Pregel簡(jiǎn)介 211
11.3 Pregel圖計(jì)算模型 212
11.3.1 有向圖和頂點(diǎn) 212
11.3.2 頂點(diǎn)之間的消息傳遞 212
11.3.3 Pregel的計(jì)算過程 213
11.3.4 實(shí)例 214
11.4 Pregel的C++ API 216
11.4.1 消息傳遞機(jī)制 217
11.4.2 Combiner 217
11.4.3 Aggregator 218
11.4.4 拓?fù)涓淖儭?18
11.4.5 輸入和輸出 218
11.5 Pregel的體系結(jié)構(gòu) 219
11.5.1 Pregel的執(zhí)行過程 219
11.5.2 容錯(cuò)性 220
11.5.3 Worker 221
11.5.4 Master 221
11.5.5 Aggregator 222
11.6 Pregel的應(yīng)用實(shí)例 222
11.6.1 單源最短路徑 222
11.6.2 二分匹配 223
11.7 Pregel和MapReduce實(shí)現(xiàn)PageRank算法的對(duì)比 224
11.7.1 PageRank算法 224
11.7.2 PageRank算法在Pregel中的
實(shí)現(xiàn) 225
11.7.3 PageRank算法在MapReduce
中的實(shí)現(xiàn) 225
11.7.4 PageRank算法在Pregel
和MapReduce中實(shí)現(xiàn)的比較 228
11.8 本章小結(jié) 228
11.9 習(xí)題 228
第12章 數(shù)據(jù)可視化 230
12.1 可視化概述 230
12.1.1 什么是數(shù)據(jù)可視化 230
12.1.2 可視化的發(fā)展歷程 230
12.1.3 可視化的重要作用 231
12.2 可視化工具 233
12.2.1 入門級(jí)工具 233
12.2.2 信息圖表工具 234
12.2.3 地圖工具 235
12.2.4 時(shí)間線工具 236
12.2.5 高級(jí)分析工具 236
12.3 可視化典型案例 237
12.3.1 全球黑客活動(dòng) 237
12.3.2 互聯(lián)網(wǎng)地圖 237
12.3.3 編程語言之間的影響力關(guān)系圖 238
12.3.4 百度遷徙 239
12.3.5 世界國(guó)家健康與財(cái)富之間的
關(guān)系 239
12.3.6 3D可視化互聯(lián)網(wǎng)地圖APP 239
12.4 本章小結(jié) 240
12.5 習(xí)題 240
第四篇 大數(shù)據(jù)應(yīng)用
第13章 大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的
應(yīng)用 242
13.1 推薦系統(tǒng)概述 242
13.1.1 什么是推薦系統(tǒng) 242
13.1.2 長(zhǎng)尾理論 243
13.1.3 推薦方法 243
13.1.4 推薦系統(tǒng)模型 244
13.1.5 推薦系統(tǒng)的應(yīng)用 244
13.2 協(xié)同過濾 245
13.2.1 基于用戶的協(xié)同過濾 245
13.2.2 基于物品的協(xié)同過濾 246
13.2.3 UserCF算法和ItemCF算法的
對(duì)比 248
13.3 協(xié)同過濾實(shí)踐 248
13.3.1 實(shí)踐背景 248
13.3.2 數(shù)據(jù)處理 249
13.3.3 計(jì)算相似度矩陣 249
13.3.4 計(jì)算推薦結(jié)果 250
13.3.5 展示推薦結(jié)果 250
13.4 本章小結(jié) 251
13.5 習(xí)題 251
第14章 大數(shù)據(jù)在生物醫(yī)學(xué)
領(lǐng)域的應(yīng)用 252
14.1 流行病預(yù)測(cè) 252
14.1.1 傳統(tǒng)流行病預(yù)測(cè)機(jī)制的不足 252
14.1.2 基于大數(shù)據(jù)的流行病預(yù)測(cè) 253
14.1.3 基于大數(shù)據(jù)的流行病預(yù)測(cè)的
重要作用 253
14.1.4 案例:百度疾病預(yù)測(cè) 254
14.2 智慧醫(yī)療 255
14.3 生物信息學(xué) 256
14.4 案例:基于大數(shù)據(jù)的綜合健康服務(wù)
平臺(tái) 257
14.4.1 平臺(tái)概述 257
14.4.2 平臺(tái)業(yè)務(wù)架構(gòu) 258
14.4.3 平臺(tái)技術(shù)架構(gòu) 258
14.4.4 平臺(tái)關(guān)鍵技術(shù) 259
14.5 本章小結(jié) 260
14.6 習(xí)題 261
第15章 大數(shù)據(jù)的其他應(yīng)用 262
15.1 大數(shù)據(jù)在物流領(lǐng)域中的應(yīng)用 262
15.1.1 智能物流的概念 262
15.1.2 智能物流的作用 263
15.1.3 智能物流的應(yīng)用 263
15.1.4 大數(shù)據(jù)是智能物流的關(guān)鍵 263
15.1.5 中國(guó)智能物流骨干網(wǎng)—菜鳥 264
15.2 大數(shù)據(jù)在城市管理中的應(yīng)用 266
15.2.1 智能交通 266
15.2.2 環(huán)保監(jiān)測(cè) 267
15.2.3 城市規(guī)劃 268
15.2.4 安防領(lǐng)域 269
15.3 大數(shù)據(jù)在金融行業(yè)中的應(yīng)用 269
15.3.1 高頻交易 269
15.3.2 市場(chǎng)情緒分析 269
15.3.3 信貸風(fēng)險(xiǎn)分析 270
15.4 大數(shù)據(jù)在汽車行業(yè)中的應(yīng)用 271
15.5 大數(shù)據(jù)在零售行業(yè)中的應(yīng)用 272
15.5.1 發(fā)現(xiàn)關(guān)聯(lián)購買行為 272
15.5.2 客戶群體細(xì)分 273
15.5.3 供應(yīng)鏈管理 273
15.6 大數(shù)據(jù)在餐飲行業(yè)中的應(yīng)用 274
15.6.1 餐飲行業(yè)擁抱大數(shù)據(jù) 274
15.6.2 餐飲O2O 274
15.7 大數(shù)據(jù)在電信行業(yè)中的應(yīng)用 276
15.8 大數(shù)據(jù)在能源行業(yè)中的應(yīng)用 276
15.9 大數(shù)據(jù)在體育和娛樂領(lǐng)域中的
應(yīng)用 277
15.9.1 訓(xùn)練球隊(duì) 277
15.9.2 投拍影視作品 278
15.9.3 預(yù)測(cè)比賽結(jié)果 279
15.10 大數(shù)據(jù)在安全領(lǐng)域中的應(yīng)用 280
15.10.1 大數(shù)據(jù)與國(guó)家安全 280
15.10.2 應(yīng)用大數(shù)據(jù)技術(shù)防御
網(wǎng)絡(luò)攻擊 280
15.10.3 警察應(yīng)用大數(shù)據(jù)工具
預(yù)防犯罪 281
15.11 大數(shù)據(jù)在政府領(lǐng)域中的應(yīng)用 282
15.12 大數(shù)據(jù)在日常生活中的應(yīng)用 283
15.13 本章小結(jié) 284
15.14 習(xí)題 284
參考文獻(xiàn) 285

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)