注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡家庭與辦公軟件Hadoop大數(shù)據(jù)技術原理與應用

Hadoop大數(shù)據(jù)技術原理與應用

Hadoop大數(shù)據(jù)技術原理與應用

定 價:¥39.00

作 者: 黑馬程序員 著
出版社: 清華大學出版社
叢編項: 大數(shù)據(jù)技術與應用叢書
標 簽: 暫缺

ISBN: 9787302524403 出版時間: 2019-04-01 包裝: 平裝
開本: 16開 頁數(shù): 290 字數(shù):  

內(nèi)容簡介

  本書圍繞Hadoop生態(tài)圈相關系統(tǒng)介紹大數(shù)據(jù)處理架構(gòu)。全書共11章,其中,第1、2章主要帶領大家認識Hadoop以及學會搭建Hadoop集群;第3~5章講解分布式文件系統(tǒng)(HDFS)、分布式計算框架MapReduce以及分布式協(xié)調(diào)服務;第6章講解Hadoop 2.0新特性,包含YARN和高可用特性;第7~10章主要講解Hadoop生態(tài)圈的相關輔助系統(tǒng),包括Hive、Flume、Azkaban和Sqoop;第11章是一個綜合項目——網(wǎng)站流量日志數(shù)據(jù)分析系統(tǒng),目的是教會大家如何利用Hadoop生態(tài)圈技術構(gòu)建大數(shù)據(jù)系統(tǒng)架構(gòu)并進行開發(fā),同時加深對Hadoop技術的理解。本書附有配套視頻、源代碼、習題、教學設計、教學課件等資源。同時,為了幫助初學者更好地學習本書中的內(nèi)容,還提供了在線答疑,歡迎讀者關注。本書可作為高等院校本、??朴嬎銠C相關專業(yè),信息管理等相關專業(yè)的大數(shù)據(jù)課程教材,也可供相關技術人員參考,是一本適合廣大計算機編程愛好者的優(yōu)秀讀物。

作者簡介

暫缺《Hadoop大數(shù)據(jù)技術原理與應用》作者簡介

圖書目錄

目錄
第1章初識Hadoop1
1.1大數(shù)據(jù)概述1
1.1.1什么是大數(shù)據(jù)1
1.1.2大數(shù)據(jù)的特征2
1.1.3研究大數(shù)據(jù)的意義3
1.2大數(shù)據(jù)的應用場景4
1.2.1醫(yī)療行業(yè)的應用4
1.2.2金融行業(yè)的應用4
1.2.3零售行業(yè)的應用5
1.3Hadoop概述6
1.3.1Hadoop的前世今生6
1.3.2Hadoop的優(yōu)勢7
1.3.3Hadoop的生態(tài)體系7
1.3.4Hadoop的版本9
1.4本章小結(jié)11
1.5課后習題11
第2章搭建Hadoop集群13
2.1安裝準備13
2.1.1虛擬機安裝13
2.1.2虛擬機克隆22
2.1.3Linux系統(tǒng)網(wǎng)絡配置24
2.1.4SSH服務配置28
2.2Hadoop集群搭建31
2.2.1Hadoop集群部署模式31
2.2.2JDK安裝32
2.2.3Hadoop安裝33
2.2.4Hadoop集群配置35
2.3Hadoop集群測試38
2.3.1格式化文件系統(tǒng)38目錄Hadoop大數(shù)據(jù)技術原理與應用2.3.2啟動和關閉Hadoop集群39
2.3.3通過UI查看Hadoop運行狀態(tài)41
2.4Hadoop集群初體驗43
2.5本章小結(jié)46
2.6課后習題46
第3章HDFS分布式文件系統(tǒng)48
3.1HDFS的簡介48
3.1.1HDFS的演變48
3.1.2HDFS的基本概念50
3.1.3HDFS的特點51
3.2HDFS的架構(gòu)和原理52
3.2.1HDFS存儲架構(gòu)52
3.2.2HDFS文件讀寫原理53
3.3HDFS的Shell操作55
3.3.1HDFS Shell介紹55
3.3.2案例——Shell定時采集數(shù)據(jù)到HDFS58
3.4HDFS的Java API操作62
3.4.1HDFS Java API介紹62
3.4.2案例——使用Java API操作HDFS63
3.5本章小結(jié)68
3.6課后習題69
第4章MapReduce分布式計算框架70
4.1MapReduce概述70
4.1.1MapReduce核心思想70
4.1.2MapReduce編程模型71
4.1.3MapReduce編程實例——詞頻統(tǒng)計72
4.2MapReduce工作原理73
4.2.1MapReduce工作過程73
4.2.2MapTask工作原理74
4.2.3ReduceTask工作原理75
4.2.4Shuffle工作原理76
4.3MapReduce編程組件77
4.3.1InputFormat組件77
4.3.2Mapper組件78
4.3.3Reducer組件78
4.3.4Partitioner組件80
4.3.5Combiner組件80
4.3.6OutputFormat組件81
4.4MapReduce運行模式82
4.5MapReduce性能優(yōu)化策略84
4.6MapReduce經(jīng)典案例——倒排索引86
4.6.1案例分析86
4.6.2案例實現(xiàn)89
4.7MapReduce經(jīng)典案例——數(shù)據(jù)去重93
4.7.1案例分析93
4.7.2案例實現(xiàn)93
4.8MapReduce經(jīng)典案例——TopN96
4.8.1案例分析96
4.8.2案例實現(xiàn)97
4.9本章小結(jié)100
4.10課后習題100
第5章Zookeeper分布式協(xié)調(diào)服務102
5.1初識Zookeeper102
5.1.1Zookeeper簡介102
5.1.2Zookeeper的特性103
5.1.3Zookeeper集群角色103
5.2數(shù)據(jù)模型104
5.2.1數(shù)據(jù)存儲結(jié)構(gòu)104
5.2.2Znode的類型105
5.2.3Znode的屬性105
5.3Zookeeper的Watch機制106
5.3.1Watch機制的簡介106
5.3.2Watch機制的特點106
5.3.3Watch機制的通知狀態(tài)和事件類型107
5.4Zookeeper的選舉機制107
5.4.1選舉機制的簡介107
5.4.2選舉機制的類型108
5.5Zookeeper分布式集群部署109
5.5.1Zookeeper安裝包的下載安裝109
5.5.2Zookeeper相關配置109
5.5.3Zookeeper服務的啟動和關閉112
5.6Zookeeper的Shell操作113
5.6.1Zookeeper Shell介紹113
5.6.2通過Shell命令操作Zookeeper113
5.7Zookeeper的Java API操作119
5.7.1Zookeeper Java API介紹119
5.7.2通過Java API操作Zookeeper120
5.8Zookeeper典型應用場景122
5.8.1數(shù)據(jù)發(fā)布與訂閱122
5.8.2統(tǒng)一命名服務123
5.8.3分布式鎖123
5.9本章小結(jié)123
5.10課后習題124
第6章Hadoop 2.0新特性125
6.1Hadoop 2.0改進與提升125
6.2YARN資源管理框架125
6.2.1YARN體系結(jié)構(gòu)125
6.2.2YARN工作流程127
6.3HDFS的高可用128
6.3.1HDFS的高可用架構(gòu)128
6.3.2搭建Hadoop高可用集群129
6.4本章小結(jié)134
6.5課后習題135
第7章Hive數(shù)據(jù)倉庫136
7.1數(shù)據(jù)倉庫簡介136
7.1.1什么是數(shù)據(jù)倉庫136
7.1.2數(shù)據(jù)倉庫的結(jié)構(gòu)137
7.1.3數(shù)據(jù)倉庫的數(shù)據(jù)模型138
7.2Hive簡介140
7.2.1什么是Hive140
7.2.2Hive系統(tǒng)架構(gòu)141
7.2.3Hive工作原理141
7.2.4Hive數(shù)據(jù)模型142
7.3Hive的安裝143
7.3.1Hive安裝模式簡介143
7.3.2嵌入模式144
7.3.3本地模式和遠程模式145
7.4Hive的管理147
7.4.1CLI方式147
7.4.2遠程服務148
7.5Hive內(nèi)置數(shù)據(jù)類型150
7.6Hive數(shù)據(jù)模型操作151
7.6.1Hive數(shù)據(jù)庫操作151
7.6.2Hive內(nèi)部表操作153
7.6.3Hive外部表操作157
7.6.4Hive分區(qū)表操作158
7.6.5Hive桶表操作163
7.7Hive數(shù)據(jù)操作166
7.8本章小結(jié)170
7.9課后習題170
第8章Flume日志采集系統(tǒng)172
8.1Flume概述172
8.1.1Flume簡介172
8.1.2Flume運行機制172
8.1.3Flume日志采集系統(tǒng)結(jié)構(gòu)圖173
8.2Flume基本使用175
8.2.1Flume系統(tǒng)要求175
8.2.2Flume安裝配置175
8.2.3Flume入門使用177
8.3Flume采集方案配置說明181
8.3.1Flume Sources181
8.3.2Flume Channels184
8.3.3Flume Sinks186
8.4Flume的可靠性保證189
8.4.1負載均衡189
8.4.2故障轉(zhuǎn)移195
8.5Flume攔截器196
8.6案例——日志采集198
8.6.1案例分析198
8.6.2案例實現(xiàn)199
8.7本章小結(jié)204
8.8課后習題205
第9章工作流管理器(Azkaban)206
9.1工作流管理器概述206
9.1.1工作流調(diào)度系統(tǒng)背景206
9.1.2常用工作流管理器介紹206
9.2Azkaban概述207
9.2.1Azkaban特點208
9.2.2Azkaban組成結(jié)構(gòu)208
9.2.3Azkaban部署模式209
9.3Azkaban部署210
9.3.1Azkaban資源準備210
9.3.2Azkaban安裝配置212
9.3.3Azkaban啟動測試220
9.4Azkaban使用224
9.4.1Azkaban工作流相關概念224
9.4.2案例演示——依賴任務調(diào)度管理226
9.4.3案例演示——MapReduce任務調(diào)度管理232
9.4.4案例演示——HIVE腳本任務調(diào)度管理235
9.5本章小結(jié)237
9.6課后習題237
第10章Sqoop數(shù)據(jù)遷移239
10.1Sqoop概述239
10.1.1Sqoop簡介239
10.1.2Sqoop原理240
10.2Sqoop安裝配置241
10.3Sqoop指令介紹242
10.4Sqoop數(shù)據(jù)導入244
10.4.1MySQL表數(shù)據(jù)導入HDFS245
10.4.2增量導入247
10.4.3MySQL表數(shù)據(jù)導入Hive248
10.4.4MySQL表數(shù)據(jù)子集導入249
10.5Sqoop數(shù)據(jù)導出251
10.6本章小結(jié)253
10.7課后習題253
第11章綜合項目——網(wǎng)站流量日志數(shù)據(jù)分析系統(tǒng)255
11.1系統(tǒng)概述255
11.1.1系統(tǒng)背景介紹255
11.1.2系統(tǒng)架構(gòu)設計255
11.1.3系統(tǒng)預覽256
11.2模塊開發(fā)——數(shù)據(jù)采集257
11.2.1使用Flume搭建日志采集系統(tǒng)257
11.2.2日志信息說明258
11.3模塊開發(fā)——數(shù)據(jù)預處理258
11.3.1分析預處理的數(shù)據(jù)258
11.3.2實現(xiàn)數(shù)據(jù)的預處理259
11.4模塊開發(fā)——數(shù)據(jù)倉庫開發(fā)268
11.4.1設計數(shù)據(jù)倉庫268
11.4.2實現(xiàn)數(shù)據(jù)倉庫269
11.5模塊開發(fā)——數(shù)據(jù)分析273
11.5.1流量分析273
11.5.2人均瀏覽量分析274
11.6模塊開發(fā)——數(shù)據(jù)導出275
11.7模塊開發(fā)——日志分析系統(tǒng)報表展示276
11.7.1搭建日志分析系統(tǒng)277
11.7.2實現(xiàn)報表展示功能285
11.7.3系統(tǒng)功能模塊展示290
11.8本章小結(jié)290

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號