Hadoop大數(shù)據(jù)分析實(shí)戰(zhàn)

定　價(jià)：￥129.00

作　者：	斯里達(dá)爾·奧拉著，李垚譯
出版社：	清華大學(xué)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購買這本書可以去

ISBN：	9787302527893	出版時(shí)間：	2019-05-01	包裝：	平裝
開本：	16	頁數(shù)：	363	字?jǐn)?shù)：

內(nèi)容簡介

　　本書詳細(xì)闡述了與Hadoop 3大數(shù)據(jù)分析相關(guān)的基本解決方案，主要包括Hadoop簡介、大數(shù)據(jù)分析概述、基于MapReduce的大數(shù)據(jù)處理、Python-Hadoop科學(xué)計(jì)算和大數(shù)據(jù)分析、R-Hadoop統(tǒng)計(jì)數(shù)據(jù)計(jì)算、Apache Spark批處理分析、Apache Spark實(shí)時(shí)數(shù)據(jù)分析、Apache Flink批處理分析、Apache Flink流式處理、大數(shù)據(jù)可視化技術(shù)、云計(jì)算簡介、使用亞馬Web服務(wù)等內(nèi)容。此外，本書還提供了相應(yīng)的示例、代碼，以幫助讀者進(jìn)一步理解相關(guān)方案的實(shí)現(xiàn)過程。本書適合作為高等院校計(jì)算機(jī)及相關(guān)專業(yè)的教材和教學(xué)參考書，也可作為相關(guān)開發(fā)人員的自學(xué)教材和參考手冊(cè)。

作者簡介

暫缺《Hadoop大數(shù)據(jù)分析實(shí)戰(zhàn)》作者簡介

圖書目錄

目錄
第1章 Hadoop簡介 1
1.1 Hadoop分布式文件系統(tǒng) 1
1.1.1 高可用性 2
1.1.2 內(nèi)部DataNode均衡器 4
1.1.3 糾刪碼 4
1.1.4 端口號(hào) 4
1.2 MapReduce框架 5
1.3 YARN 6
1.3.1 機(jī)會(huì)型容器 7
1.3.2 YARN時(shí)間軸服務(wù)v.2 7
1.4 其他變化內(nèi)容 9
1.4.1 最低Java版本 9
1.4.2 Shell腳本重寫 9
1.4.3 覆蓋客戶端的JAR 10
1.5 安裝Hadoop 3 10
1.5.1 準(zhǔn)備條件 10
1.5.2 下載 10
1.5.3 安裝 12
1.5.4 設(shè)置無密碼ssh 12
1.5.5 設(shè)置NameNode 13
1.5.6 啟動(dòng)HDFS 13
1.5.7 設(shè)置YARN服務(wù) 17
1.5.8 糾刪碼 18
1.5.9 內(nèi)部DataNode平衡器 21
1.5.10 安裝時(shí)間軸服務(wù)v.2 21
1.6 本章小結(jié) 27
第2章大數(shù)據(jù)分析概述 29
2.1 數(shù)據(jù)分析簡介 29
2.2 大數(shù)據(jù)簡介 30
2.2.1 數(shù)據(jù)的多樣性 31
2.2.2 數(shù)據(jù)的速度 32
2.2.3 數(shù)據(jù)的容量 32
2.2.4 數(shù)據(jù)的準(zhǔn)確性 32
2.2.5 數(shù)據(jù)的可變性 33
2.2.6 可視化 33
2.2.7 數(shù)值 33
2.2 使用Apache Hadoop的分布式計(jì)算 33
2.4 MapReduce框架 34
2.5 Hive 35
2.5.1 下載并解壓Hive二進(jìn)制文件 37
2.5.2 安裝Derby 37
2.5.3 使用Hive 39
2.5.4 SELECT語句的語法 41
2.5.5 INSET語句的語法 44
2.4.6 原始類型 44
2.5.7 復(fù)雜類型 45
2.5.8 內(nèi)建運(yùn)算符和函數(shù) 45
2.5.9 語言的功能 50
2.6 Apache Spark 51
2.7 基于Tableau的可視化操作 52
2.8 本章小結(jié) 54
第3章基于MapReduce的大數(shù)據(jù)處理 55
3.1 MapReduce框架 55
3.1.1 數(shù)據(jù)集 57
3.1.2 記錄讀取器 58
3.1.3 映射 59
3.1.4 組合器 59
3.1.5 分區(qū)器 60
3.1.6 混洗和排序 60
3.1.7 reducer任務(wù) 60
3.1.8 輸出格式 61
3.2 MapReduce作業(yè)類型 61
3.2.1 SingleMapper作業(yè) 63
3.2.2 SingleMapperReducer作業(yè) 72
3.2.3 MultipleMappersReducer作業(yè) 77
3.2.4 SingleMapperReducer作業(yè) 83
3.2.5 應(yīng)用場(chǎng)景 84
3.3 MapReduce模式 88
3.3.1 聚合模式 88
3.3.2 過濾模式 90
3.3.3 連接模式 91
3.4 本章小結(jié) 100
第4章 Python-Hadoop科學(xué)計(jì)算和大數(shù)據(jù)分析 101
4.1 安裝操作 101
4.1.1 安裝Python 101
4.1.2 安裝Anaconda 103
4.2 數(shù)據(jù)分析 110
4.3 本章小結(jié) 134
第5章 R-Hadoop統(tǒng)計(jì)數(shù)據(jù)計(jì)算 135
5.1 概述 135
5.1.1 在工作站上安裝R并連接Hadoop中的數(shù)據(jù) 135
5.1.2 在共享服務(wù)器上安裝R并連接至Hadoop 136
5.1.3 利用Revolution R Open 136
5.1.4 利用RMR2在MapReduce內(nèi)執(zhí)行R 137
5.2 R語言和Hadoop間的集成方法 138
5.2.1 RHadoop—在工作站上安裝R并將數(shù)據(jù)連接至Hadoop中 139
5.2.2 RHIPE—在Hadoop MapReduce中執(zhí)行R語言 139
5.2.3 R和Hadoop流 139
5.2.4 RHIVE—在工作站上安裝R并連接至Hadoop數(shù)據(jù) 140
5.2.5 ORCH—基于Hadoop的Oracle連接器 140
5.3 數(shù)據(jù)分析 140
5.4 本章小結(jié) 165
第6章 Apache Spark批處理分析 167
6.1 SparkSQL和DataFrame 167
6.2 DataFrame API和SQL API 171
6.2.1 旋轉(zhuǎn) 176
6.2.2 過濾器 177
6.2.3 用戶定義的函數(shù) 178
6.3 模式—數(shù)據(jù)的結(jié)構(gòu) 178
6.3.1 隱式模式 179
6.3.2 顯式模式 179
6.3.3 編碼器 181
6.4 加載數(shù)據(jù)集 182
6.5 保存數(shù)據(jù)集 183
6.6 聚合 183
6.6.1 聚合函數(shù) 184
6.6.2 窗口函數(shù) 194
6.6.3 ntiles 195
6.7 連接 197
6.7.1 連接的內(nèi)部工作機(jī)制 199
6.7.2 混洗連接 199
6.7.3 廣播連接 199
6.7.4 連接類型 200
6.7.5 內(nèi)部連接 201
6.7.6 左外連接 202
6.7.7 右外連接 203
6.7.8 全外連接 204
6.7.9 左反連接 205
6.7.10 左半連接 206
6.7.11 交叉連接 206
6.7.12 連接的操作性能 207
6.8 本章小結(jié) 208
第7章 Apache Spark實(shí)時(shí)數(shù)據(jù)分析 209
7.1 數(shù)據(jù)流 209
7.1.1 “至少一次”處理 211
7.1.2 “最多一次”處理 211
7.1.3 “僅一次”處理 212
7.2 Spark Streaming 214
7.2.1 StreamingContext 215
7.2.2 創(chuàng)建StreamingContext 215
7.2.3 啟用StreamingContext 216
7.2.4 終止StreamingContext 216
7.3 fileStream 217
7.3.1 textFileStream 217
7.3.2 binaryRecordsStream 217
7.3.3 queueStream 218
7.3.4 離散流 219
7.4 轉(zhuǎn)換 222
7.4.1 窗口操作 223
7.4.2 有狀態(tài)/無狀態(tài)轉(zhuǎn)換 226
7.5 檢查點(diǎn) 227
7.5.1 元數(shù)據(jù)檢查點(diǎn) 228
7.5.2 數(shù)據(jù)檢查點(diǎn) 228
7.6 驅(qū)動(dòng)程序故障恢復(fù) 229
7.7 與流平臺(tái)的互操作性（Apache Kafka） 230
7.7.1 基于接收器的方案 230
7.7.2 Direct Stream 232
7.7.3 Structured Streaming 233
7.8 處理事件時(shí)間和延遲日期 236
7.9 容錯(cuò)示意圖 237
7.10 本章小結(jié) 237
第8章 Apache Flink批處理分析 239
8.1 Apache Flink簡介 239
8.1.1 無界數(shù)據(jù)集的連續(xù)處理 240
8.1.2 Flink、數(shù)據(jù)流模型和有界數(shù)據(jù)集 241
8.2 安裝Flink 241
8.3 使用Flink集群UI 248
8.4 批處理分析 251
8.4.1 讀取文件 251
8.4.2 轉(zhuǎn)換 254
8.4.3 groupBy 258
8.4.4 聚合 260
8.4.5 連接 261
8.4.6 寫入文件 272
8.5 本章小結(jié) 274
第9章 Apache Flink流式處理 275
9.1 流式執(zhí)行模型簡介 275
9.2 利用DataStream API進(jìn)行數(shù)據(jù)處理 277
9.2.1 執(zhí)行環(huán)境 278
9.2.2 數(shù)據(jù)源 278
9.2.3 轉(zhuǎn)換 282
9.3 本章小結(jié) 300
第10章大數(shù)據(jù)可視化技術(shù) 301
10.1 數(shù)據(jù)可視化簡介 301
10.2 Tableau 302
10.3 圖表類型 313
10.3.1 線狀圖 314
10.3.2 餅圖 314
10.3.3 柱狀圖 315
10.3.4 熱圖 316
10.4 基于Python的數(shù)據(jù)可視化 317
10.5 基于R的數(shù)據(jù)可視化 319
10.6 大數(shù)據(jù)可視化工具 320
10.7 本章小結(jié) 321
第11章云計(jì)算簡介 323
11.1 概念和術(shù)語 323
11.1.1 云 323
11.1.2 IT資源 324
11.1.3 本地環(huán)境 324
11.1.4 云使用者和云供應(yīng)商 324
11.1.5 擴(kuò)展 324
11.2 目標(biāo)和收益 325
11.2.1 可擴(kuò)展性的提升 326
11.2.2 可用性和可靠性的提升 326
11.3 風(fēng)險(xiǎn)和挑戰(zhàn) 327
11.3.1 安全漏洞 327
11.3.2 減少運(yùn)營治理控制 328
11.3.3 云提供商之間有限的可移植性 328
11.4 角色和邊界 328
11.4.1 云供應(yīng)商 328
11.4.2 云使用者 328
11.4.3 云服務(wù)持有者 328
11.4.4 云資源管理員 329
11.5 云特征 329
11.5.1 按需使用 330
11.5.2 無處不在的訪問 330
11.5.3 多租戶機(jī)制（和資源池機(jī)制） 330
11.5.4 彈性 330
11.5.5 監(jiān)測(cè)應(yīng)用狀態(tài) 330
11.5.6 彈性計(jì)算 331
11.6 云交付模型 331
11.6.1 基礎(chǔ)設(shè)施即服務(wù) 331
11.6.2 平臺(tái)即服務(wù) 331
11.6.3 軟件即服務(wù) 332
11.6.4 整合云交付模型 332
11.7 云部署模型 333
11.7.1 公共云 333
11.7.2 社區(qū)云 334
11.7.3 私有云 334
11.7.4 混合云 334
11.8 本章小結(jié) 335
第12章使用亞馬遜Web服務(wù) 337
12.1 Amazon Elastic Compute Cloud 337
12.1.1 彈性Web計(jì)算 337
12.1.2 對(duì)操作的完整控制 338
12.1.3 靈活的云托管服務(wù) 338
12.1.4 集成 338
12.1.5 高可靠性 338
12.1.6 安全性 338
12.1.7 經(jīng)濟(jì)性 338
12.1.8 易于啟動(dòng) 339
12.1.9 亞馬云及其鏡像 339
12.2 啟用多個(gè)AMI實(shí)例 340
12.2.1 實(shí)例 340
12.2.2 AMI 340
12.2.3 區(qū)域和可用區(qū) 340
12.2.4 區(qū)域和可用區(qū)概念 341
12.2.5 區(qū)域 341
12.2.6 可用區(qū) 341
12.2.7 可用區(qū)域 342
12.2.8 區(qū)域和端點(diǎn) 342
12.2.9 實(shí)例類型 343
12.2.10 Amazon EC2和亞馬遜虛擬私有云 343
12.3 AWS Lambda 344
12.4 Amazon S3簡介 345
12.4.1 Amazon S3功能 345
12.4.2 全面的安全和協(xié)從能力 346
12.4.3 就地查詢 346
12.4.4 靈活的管理機(jī)制 346
12.4.5 最受支持的平臺(tái)以及最大的生態(tài)系統(tǒng) 347
12.4.6 簡單、方便的數(shù)據(jù)傳輸機(jī)制 347
12.4.7 備份和恢復(fù) 347
12.4.8 數(shù)據(jù)存檔 347
12.4.9 數(shù)據(jù)湖和數(shù)據(jù)分析 348
12.4.10 混合云存儲(chǔ) 348
12.4.11 原生云應(yīng)用程序數(shù)據(jù) 348
12.4.12 災(zāi)難恢復(fù) 348
12.5 Amazon DynamoDB 349
12.6 Amazon Kinesis Data Streams 349
12.6.1 加速日志和數(shù)據(jù)提要的輸入和處理 350
12.6.2 實(shí)時(shí)度量和報(bào)告機(jī)制 350
12.6.3 實(shí)時(shí)數(shù)據(jù)分析 350
12.6.4 復(fù)雜的數(shù)據(jù)流處理 350
12.6.5 Kinesis Data Streams的優(yōu)點(diǎn) 350
12.7 AWS Glue 351
12.8 Amazon EMR 352
12.9 本章小結(jié) 363