注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡家庭與辦公軟件Hadoop大數據分析實戰(zhàn)

Hadoop大數據分析實戰(zhàn)

Hadoop大數據分析實戰(zhàn)

定 價:¥129.00

作 者: 斯里達爾·奧拉 著,李垚 譯
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787302527893 出版時間: 2019-05-01 包裝: 平裝
開本: 16 頁數: 363 字數:  

內容簡介

  本書詳細闡述了與Hadoop 3大數據分析相關的基本解決方案,主要包括Hadoop簡介、大數據分析概述、基于MapReduce的大數據處理、Python-Hadoop科學計算和大數據分析、R-Hadoop統計數據計算、Apache Spark批處理分析、Apache Spark實時數據分析、Apache Flink批處理分析、Apache Flink流式處 理、大數據可視化技術、云計算簡介、使用亞馬Web服務等內容。此外,本書還提供了相應的示例、代碼,以幫助讀者進一步理解相關方案的實現過程。 本書適合作為高等院校計算機及相關專業(yè)的教材和教學參考書,也可作為相關開發(fā)人員的自學教材和參考手冊。

作者簡介

暫缺《Hadoop大數據分析實戰(zhàn)》作者簡介

圖書目錄

目 錄
第1章 Hadoop簡介 1
1.1 Hadoop分布式文件系統 1
1.1.1 高可用性 2
1.1.2 內部DataNode均衡器 4
1.1.3 糾刪碼 4
1.1.4 端口號 4
1.2 MapReduce框架 5
1.3 YARN 6
1.3.1 機會型容器 7
1.3.2 YARN時間軸服務v.2 7
1.4 其他變化內容 9
1.4.1 最低Java版本 9
1.4.2 Shell腳本重寫 9
1.4.3 覆蓋客戶端的JAR 10
1.5 安裝Hadoop 3 10
1.5.1 準備條件 10
1.5.2 下載 10
1.5.3 安裝 12
1.5.4 設置無密碼ssh 12
1.5.5 設置NameNode 13
1.5.6 啟動HDFS 13
1.5.7 設置YARN服務 17
1.5.8 糾刪碼 18
1.5.9 內部DataNode平衡器 21
1.5.10 安裝時間軸服務v.2 21
1.6 本章小結 27
第2章 大數據分析概述 29
2.1 數據分析簡介 29
2.2 大數據簡介 30
2.2.1 數據的多樣性 31
2.2.2 數據的速度 32
2.2.3 數據的容量 32
2.2.4 數據的準確性 32
2.2.5 數據的可變性 33
2.2.6 可視化 33
2.2.7 數值 33
2.2 使用Apache Hadoop的分布式計算 33
2.4 MapReduce框架 34
2.5 Hive 35
2.5.1 下載并解壓Hive二進制文件 37
2.5.2 安裝Derby 37
2.5.3 使用Hive 39
2.5.4 SELECT語句的語法 41
2.5.5 INSET語句的語法 44
2.4.6 原始類型 44
2.5.7 復雜類型 45
2.5.8 內建運算符和函數 45
2.5.9 語言的功能 50
2.6 Apache Spark 51
2.7 基于Tableau的可視化操作 52
2.8 本章小結 54
第3章 基于MapReduce的大數據處理 55
3.1 MapReduce框架 55
3.1.1 數據集 57
3.1.2 記錄讀取器 58
3.1.3 映射 59
3.1.4 組合器 59
3.1.5 分區(qū)器 60
3.1.6 混洗和排序 60
3.1.7 reducer任務 60
3.1.8 輸出格式 61
3.2 MapReduce作業(yè)類型 61
3.2.1 SingleMapper作業(yè) 63
3.2.2 SingleMapperReducer作業(yè) 72
3.2.3 MultipleMappersReducer作業(yè) 77
3.2.4 SingleMapperReducer作業(yè) 83
3.2.5 應用場景 84
3.3 MapReduce模式 88
3.3.1 聚合模式 88
3.3.2 過濾模式 90
3.3.3 連接模式 91
3.4 本章小結 100
第4章 Python-Hadoop科學計算和大數據分析 101
4.1 安裝操作 101
4.1.1 安裝Python 101
4.1.2 安裝Anaconda 103
4.2 數據分析 110
4.3 本章小結 134
第5章 R-Hadoop統計數據計算 135
5.1 概述 135
5.1.1 在工作站上安裝R并連接Hadoop中的數據 135
5.1.2 在共享服務器上安裝R并連接至Hadoop 136
5.1.3 利用Revolution R Open 136
5.1.4 利用RMR2在MapReduce內執(zhí)行R 137
5.2 R語言和Hadoop間的集成方法 138
5.2.1 RHadoop—在工作站上安裝R并將數據連接至Hadoop中 139
5.2.2 RHIPE—在Hadoop MapReduce中執(zhí)行R語言 139
5.2.3 R和Hadoop流 139
5.2.4 RHIVE—在工作站上安裝R并連接至Hadoop數據 140
5.2.5 ORCH—基于Hadoop的Oracle連接器 140
5.3 數據分析 140
5.4 本章小結 165
第6章 Apache Spark批處理分析 167
6.1 SparkSQL和DataFrame 167
6.2 DataFrame API和SQL API 171
6.2.1 旋轉 176
6.2.2 過濾器 177
6.2.3 用戶定義的函數 178
6.3 模式—數據的結構 178
6.3.1 隱式模式 179
6.3.2 顯式模式 179
6.3.3 編碼器 181
6.4 加載數據集 182
6.5 保存數據集 183
6.6 聚合 183
6.6.1 聚合函數 184
6.6.2 窗口函數 194
6.6.3 ntiles 195
6.7 連接 197
6.7.1 連接的內部工作機制 199
6.7.2 混洗連接 199
6.7.3 廣播連接 199
6.7.4 連接類型 200
6.7.5 內部連接 201
6.7.6 左外連接 202
6.7.7 右外連接 203
6.7.8 全外連接 204
6.7.9 左反連接 205
6.7.10 左半連接 206
6.7.11 交叉連接 206
6.7.12 連接的操作性能 207
6.8 本章小結 208
第7章 Apache Spark實時數據分析 209
7.1 數據流 209
7.1.1 “至少一次”處理 211
7.1.2 “最多一次”處理 211
7.1.3 “僅一次”處理 212
7.2 Spark Streaming 214
7.2.1 StreamingContext 215
7.2.2 創(chuàng)建StreamingContext 215
7.2.3 啟用StreamingContext 216
7.2.4 終止StreamingContext 216
7.3 fileStream 217
7.3.1 textFileStream 217
7.3.2 binaryRecordsStream 217
7.3.3 queueStream 218
7.3.4 離散流 219
7.4 轉換 222
7.4.1 窗口操作 223
7.4.2 有狀態(tài)/無狀態(tài)轉換 226
7.5 檢查點 227
7.5.1 元數據檢查點 228
7.5.2 數據檢查點 228
7.6 驅動程序故障恢復 229
7.7 與流平臺的互操作性(Apache Kafka) 230
7.7.1 基于接收器的方案 230
7.7.2 Direct Stream 232
7.7.3 Structured Streaming 233
7.8 處理事件時間和延遲日期 236
7.9 容錯示意圖 237
7.10 本章小結 237
第8章 Apache Flink批處理分析 239
8.1 Apache Flink簡介 239
8.1.1 無界數據集的連續(xù)處理 240
8.1.2 Flink、數據流模型和有界數據集 241
8.2 安裝Flink 241
8.3 使用Flink集群UI 248
8.4 批處理分析 251
8.4.1 讀取文件 251
8.4.2 轉換 254
8.4.3 groupBy 258
8.4.4 聚合 260
8.4.5 連接 261
8.4.6 寫入文件 272
8.5 本章小結 274
第9章 Apache Flink流式處理 275
9.1 流式執(zhí)行模型簡介 275
9.2 利用DataStream API進行數據處理 277
9.2.1 執(zhí)行環(huán)境 278
9.2.2 數據源 278
9.2.3 轉換 282
9.3 本章小結 300
第10章 大數據可視化技術 301
10.1 數據可視化簡介 301
10.2 Tableau 302
10.3 圖表類型 313
10.3.1 線狀圖 314
10.3.2 餅圖 314
10.3.3 柱狀圖 315
10.3.4 熱圖 316
10.4 基于Python的數據可視化 317
10.5 基于R的數據可視化 319
10.6 大數據可視化工具 320
10.7 本章小結 321
第11章 云計算簡介 323
11.1 概念和術語 323
11.1.1 云 323
11.1.2 IT資源 324
11.1.3 本地環(huán)境 324
11.1.4 云使用者和云供應商 324
11.1.5 擴展 324
11.2 目標和收益 325
11.2.1 可擴展性的提升 326
11.2.2 可用性和可靠性的提升 326
11.3 風險和挑戰(zhàn) 327
11.3.1 安全漏洞 327
11.3.2 減少運營治理控制 328
11.3.3 云提供商之間有限的可移植性 328
11.4 角色和邊界 328
11.4.1 云供應商 328
11.4.2 云使用者 328
11.4.3 云服務持有者 328
11.4.4 云資源管理員 329
11.5 云特征 329
11.5.1 按需使用 330
11.5.2 無處不在的訪問 330
11.5.3 多租戶機制(和資源池機制) 330
11.5.4 彈性 330
11.5.5 監(jiān)測應用狀態(tài) 330
11.5.6 彈性計算 331
11.6 云交付模型 331
11.6.1 基礎設施即服務 331
11.6.2 平臺即服務 331
11.6.3 軟件即服務 332
11.6.4 整合云交付模型 332
11.7 云部署模型 333
11.7.1 公共云 333
11.7.2 社區(qū)云 334
11.7.3 私有云 334
11.7.4 混合云 334
11.8 本章小結 335
第12章 使用亞馬遜Web服務 337
12.1 Amazon Elastic Compute Cloud 337
12.1.1 彈性Web計算 337
12.1.2 對操作的完整控制 338
12.1.3 靈活的云托管服務 338
12.1.4 集成 338
12.1.5 高可靠性 338
12.1.6 安全性 338
12.1.7 經濟性 338
12.1.8 易于啟動 339
12.1.9 亞馬云及其鏡像 339
12.2 啟用多個AMI實例 340
12.2.1 實例 340
12.2.2 AMI 340
12.2.3 區(qū)域和可用區(qū) 340
12.2.4 區(qū)域和可用區(qū)概念 341
12.2.5 區(qū)域 341
12.2.6 可用區(qū) 341
12.2.7 可用區(qū)域 342
12.2.8 區(qū)域和端點 342
12.2.9 實例類型 343
12.2.10 Amazon EC2和亞馬遜虛擬私有云 343
12.3 AWS Lambda 344
12.4 Amazon S3簡介 345
12.4.1 Amazon S3功能 345
12.4.2 全面的安全和協從能力 346
12.4.3 就地查詢 346
12.4.4 靈活的管理機制 346
12.4.5 最受支持的平臺以及最大的生態(tài)系統 347
12.4.6 簡單、方便的數據傳輸機制 347
12.4.7 備份和恢復 347
12.4.8 數據存檔 347
12.4.9 數據湖和數據分析 348
12.4.10 混合云存儲 348
12.4.11 原生云應用程序數據 348
12.4.12 災難恢復 348
12.5 Amazon DynamoDB 349
12.6 Amazon Kinesis Data Streams 349
12.6.1 加速日志和數據提要的輸入和處理 350
12.6.2 實時度量和報告機制 350
12.6.3 實時數據分析 350
12.6.4 復雜的數據流處理 350
12.6.5 Kinesis Data Streams的優(yōu)點 350
12.7 AWS Glue 351
12.8 Amazon EMR 352
12.9 本章小結 363

本目錄推薦

掃描二維碼
Copyright ? 讀書網 ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號