注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件Hadoop+Spark大數(shù)據(jù)技術(shù)(微課版)

Hadoop+Spark大數(shù)據(jù)技術(shù)(微課版)

Hadoop+Spark大數(shù)據(jù)技術(shù)(微課版)

定 價(jià):¥69.00

作 者: 劉彬斌,李柏章,周磊,李永富 著
出版社: 清華大學(xué)出版社
叢編項(xiàng): 大數(shù)據(jù)與人工智能技術(shù)叢書
標(biāo) 簽: 暫缺

ISBN: 9787302514275 出版時(shí)間: 2018-12-01 包裝: 平裝
開本: 16開 頁數(shù): 343 字?jǐn)?shù):  

內(nèi)容簡介

  本書從初學(xué)者角度出發(fā),通過豐富的實(shí)例,詳細(xì)介紹了大數(shù)據(jù)開發(fā)環(huán)境和基本知識點(diǎn)的應(yīng)用。全書內(nèi)容包括:大數(shù)據(jù)系統(tǒng)基礎(chǔ)篇、Hadoop技術(shù)篇、Spark技術(shù)篇和項(xiàng)目實(shí)戰(zhàn)篇。大數(shù)據(jù)系統(tǒng)基礎(chǔ)篇講解Linux的安裝、Linux的使用和在Linux系統(tǒng)上安裝并使用MySQL;Hadoop技術(shù)篇講解Hadoop集群的搭建、Hadoop兩大核心的原理與使用、Hadoop生態(tài)圈的工具原理與使用(Hive、HBase、Sqoop、Flume等);Spark技術(shù)篇講解Spark集群的搭建、Scala語言、RDD、Spark SQL、Spark streaming和機(jī)器學(xué)習(xí);項(xiàng)目實(shí)戰(zhàn)篇將真實(shí)的電力能源大數(shù)據(jù)分析項(xiàng)目作為實(shí)戰(zhàn)解讀,幫助初學(xué)者快速入門。本書所有知識點(diǎn)都結(jié)合具體實(shí)例和程序講解,便于讀者理解和掌握。本書適合作為高等院校計(jì)算機(jī)應(yīng)用、大數(shù)據(jù)技術(shù)及相關(guān)專業(yè)的教材;也適合作為大數(shù)據(jù)開發(fā)入門者的自學(xué)用書,可快速提高開發(fā)技能。

作者簡介

暫缺《Hadoop+Spark大數(shù)據(jù)技術(shù)(微課版)》作者簡介

圖書目錄

第1篇  大數(shù)據(jù)系統(tǒng)基礎(chǔ)
第1章  大數(shù)據(jù)概述    3
1.1  數(shù)據(jù)的產(chǎn)生與發(fā)展    3
1.2  大數(shù)據(jù)的基礎(chǔ)知識    4
1.3  大數(shù)據(jù)架構(gòu)    5
第2章  系統(tǒng)的安裝與使用    7
2.1  系統(tǒng)安裝    7
 2.1.1  安裝CentOS 6.x    7
 2.1.2  安裝步驟    7
2.2  基本命令    18
 2.2.1  cd命令    18
 2.2.2  打包和解壓指令    19
 2.2.3  其他常用命令    21
2.3  權(quán)限與目錄    26
 2.3.1  權(quán)限    26
 2.3.2  目錄    27
2.4  文件操作    28
 2.4.1  文件與目錄管理    28
 2.4.2  用戶和用戶組管理    39
2.5  習(xí)題與思考    46
第3章  任務(wù)命令    47
3.1  腳本配置    47
 3.1.1  Shell腳本    47
 3.1.2  Shell變量    47
 3.1.3  Shell傳遞參數(shù)    48
 3.1.4  Shell數(shù)組    50
 3.1.5  Shell運(yùn)算符    51
 3.1.6  Shell echo命令    55
 3.1.7  Shell printf命令    57
 3.1.8  Shell test命令    58
 3.1.9  Shell流程控制    60
3.2  網(wǎng)絡(luò)配置    67
3.3  習(xí)題與思考    70
第4章  數(shù)據(jù)庫操作    71
4.1  數(shù)據(jù)庫簡介    71
 4.1.1  MySQL數(shù)據(jù)庫簡介    71
 4.1.2  安裝MySQL    72
4.2  數(shù)據(jù)庫基本操作    72
 4.2.1  MySQL的DDL操作    72
 4.2.2  MySQL的DML操作    80
4.3  數(shù)據(jù)庫用戶操作    83
 4.3.1  創(chuàng)建用戶    83
 4.3.2  給用戶授權(quán)    83
 4.3.3  撤銷授權(quán)    84
 4.3.4  查看用戶權(quán)限    85
 4.3.5  刪除用戶    85
 4.3.6  修改用戶密碼    86
4.4  數(shù)據(jù)庫查詢操作    86
4.5  習(xí)題與思考    90
第2篇  Hadoop技術(shù)
第5章  Hadoop開發(fā)環(huán)境    95
5.1  Hadoop生態(tài)圈工具    95
5.2  環(huán)境搭建    97
 5.2.1  步驟1——虛擬機(jī)安裝    97
 5.2.2  步驟2——安裝JDK和Hadoop    97
 5.2.3  步驟3——復(fù)制虛擬機(jī)    113
 5.2.4  步驟4——設(shè)置免密    117
 5.2.5  步驟5——安裝Zookeeper    119
 5.2.6  步驟6——啟動(dòng)Hadoop集群    122
 5.2.7  正常啟動(dòng)順序    125
5.3  常見問題匯總    127
5.4  習(xí)題與思考    128
第6章  HDFS技術(shù)    129
6.1  HDFS架構(gòu)    129
6.2  HDFS命令    130
 6.2.1  version命令    131
 6.2.2  dfsadmin命令    131
 6.2.3  jar命令    132
 6.2.4  fs命令    132
6.3  API的使用    140
6.4  習(xí)題與思考    142
第7章  MapReduce技術(shù)    143
7.1  MapReduce工作原理    143
 7.1.1  MapReduce作業(yè)運(yùn)行流程    143
 7.1.2  早期MapReduce架構(gòu)存在的問題    144
7.2  YARN運(yùn)行概述    144
 7.2.1  YARN模塊介紹    144
 7.2.2  YARN工作流程    145
7.3  MapReduce編程模型    146
7.4  MapReduce數(shù)據(jù)流    148
 7.4.1  輸入文件    150
 7.4.2  輸入格式    150
 7.4.3  數(shù)據(jù)片段    151
 7.4.4  記錄讀取器    151
 7.4.5  Mapper    151
 7.4.6  Shuffle    152
 7.4.7  排序    153
 7.4.8  歸約    153
 7.4.9  輸出格式    153
7.5  MapReduce API編程    154
 7.5.1  詞頻統(tǒng)計(jì)    154
 7.5.2  指定字段    156
 7.5.3  求平均數(shù)    158
 7.5.4  關(guān)聯(lián)    160
7.6  習(xí)題與思考    163
第8章  Hive數(shù)據(jù)倉庫    165
8.1  Hive模型    165
 8.1.1  Hive架構(gòu)與基本組成    165
 8.1.2  Hive的數(shù)據(jù)模型    166
8.2  Hive的安裝    167
 8.2.1  Hive的基本安裝    167
 8.2.2  MySQL的安裝    168
 8.2.3  Hive配置    169
8.3  HQL詳解    170
 8.3.1  Hive數(shù)據(jù)管理方式    170
 8.3.2  HQL操作    174
8.4  習(xí)題與思考    182
第9章  HBase分布式數(shù)據(jù)庫    183
9.1  HBase工作原理    183
 9.1.1  HBase表結(jié)構(gòu)    183
 9.1.2  體系結(jié)構(gòu)    184
 9.1.3  物理模型    186
 9.1.4  HBase讀寫流程    187
9.2  HBase完全分布式    189
 9.2.1  安裝前的準(zhǔn)備    189
 9.2.2  配置文件    189
 9.2.3  集群啟動(dòng)    191
9.3  HBase Shell    192
 9.3.1  DDL操作    192
 9.3.2  DML操作    194
9.4  習(xí)題與思考    197
第10章  Sqoop工具    198
10.1  Sqoop安裝    199
10.2  Sqoop的使用    200
 10.2.1  MySQL的導(dǎo)入導(dǎo)出    200
 10.2.2  Oracle的導(dǎo)入導(dǎo)出    201
10.3  習(xí)題與思考    202
第11章  Flume日志收集    203
11.1  體系架構(gòu)    204
 11.1.1  Flume內(nèi)部結(jié)構(gòu)    204
 11.1.2  Flume事件    204
11.2  Flume的特點(diǎn)    205
11.3  Flume集群搭建    206
11.4  Flume實(shí)例    207
 11.4.1  實(shí)例1:實(shí)時(shí)測試客戶端傳輸?shù)臄?shù)據(jù)    207
 11.4.2  實(shí)例2:監(jiān)控本地文件夾并寫入到HDFS中    208
11.5  習(xí)題與思考    210
第3篇  Spark技術(shù)
第12章  Spark概述    213
12.1  Spark框架原理    213
12.2  Spark大數(shù)據(jù)處理    214
12.3  RDD數(shù)據(jù)集    215
12.4  Spark子系統(tǒng)    215
第13章  Scala語言    216
13.1  Scala語法基礎(chǔ)    216
 13.1.1  變量、常量與賦值    216
 13.1.2  運(yùn)算符與表達(dá)式    217
 13.1.3  條件分支控制    217
 13.1.4  循環(huán)流程控制    218
 13.1.5  Scala數(shù)據(jù)類型    218
13.2  Scala運(yùn)算與函數(shù)    219
13.3  Scala閉包    220
13.4  Scala數(shù)組與字符串    220
 13.4.1  Scala數(shù)組    220
 13.4.2  Scala字符串    221
13.5  Scala迭代器    221
13.6  Scala類和對象    222
13.7  習(xí)題與思考    223
第14章  Spark高可用環(huán)境    224
14.1  環(huán)境搭建    224
 14.1.1  準(zhǔn)備工作    224
 14.1.2  下載并安裝Spark    224
14.2  常見問題匯總    226
第15章  RDD技術(shù)    228
15.1  RDD的實(shí)現(xiàn)    228
 15.1.1  數(shù)據(jù)源    228
 15.1.2  調(diào)度器    228
15.2  RDD編程接口    229
15.3  RDD操作    229
 15.3.1  Spark基于命令行的操作    229
 15.3.2  Spark基于應(yīng)用作業(yè)的操作    231
 15.3.3  Spark操作的基礎(chǔ)命令與開發(fā)工具介紹    231
 15.3.4  Spark基于YARN的調(diào)度模式    231
 15.3.5  Spark基于Scala語言的本地應(yīng)用開發(fā)    234
 15.3.6  Spark基于Scala語言的集群應(yīng)用開發(fā)    235
 15.3.7  Spark基于Java語言的應(yīng)用開發(fā)    236
 15.3.8  Spark基于Java語言的本地應(yīng)用開發(fā)    237
 15.3.9  Spark基于Java語言的集群應(yīng)用開發(fā)    238
15.4  習(xí)題與思考    241
第16章  Spark SQL    242
16.1  Spark SQL架構(gòu)原理    242
 16.1.1  Hive的兩種功能    242
 16.1.2  Spark SQL的重要功能    242
 16.1.3  Spark SQL的DataFrame特征    243
16.2  Spark SQL操作Hive    243
 16.2.1  添加配置文件,便于Spark SQL訪問Hive倉庫    243
 16.2.2  安裝JDBC驅(qū)動(dòng)    243
 16.2.3  啟動(dòng)MySQL服務(wù)及其Hive的元數(shù)據(jù)服務(wù)    243
 16.2.4  啟動(dòng)HDFS集群和Spark集群    244
 16.2.5  啟動(dòng)Spark-Shell并測試    244
16.3  Spark SQL操作HDFS    244
 16.3.1  操作代碼    244
 16.3.2  工程文件    246
 16.3.3  創(chuàng)建測試數(shù)據(jù)    246
 16.3.4  運(yùn)行Job并提交到集群    247
 16.3.5  查看運(yùn)行結(jié)果    247
16.4  Spark SQL操作關(guān)系數(shù)據(jù)庫    248
 16.4.1  添加訪問MySQL的驅(qū)動(dòng)包    248
 16.4.2  添加必要的開發(fā)環(huán)境    248
 16.4.3  使用Spark SQL操作關(guān)系數(shù)據(jù)庫    248
 16.4.4  初始化MySQL數(shù)據(jù)庫服務(wù)    250
 16.4.5  準(zhǔn)備Spark SQL源數(shù)據(jù)    251
 16.4.6  運(yùn)行Spark代碼    252
 16.4.7  創(chuàng)建dist文件夾    252
 16.4.8  安裝數(shù)據(jù)庫驅(qū)動(dòng)    252
 16.4.9  基于集群操作    253
 16.4.10  打包工程代碼到dist目錄下    256
 16.4.11  啟動(dòng)集群并提交Job應(yīng)用    256
 16.4.12  檢查關(guān)系數(shù)據(jù)庫中是否已有數(shù)據(jù)    258
16.5  習(xí)題與思考    258
第17章  Spark Streaming    260
17.1  架構(gòu)與原理    260
 17.1.1  Spark Streaming中的離散流特征    260
 17.1.2  Spark Streaming的應(yīng)用場景    260
17.2  KafKa中間件    261
 17.2.1  KafKa的特點(diǎn)    261
 17.2.2  ZeroCopy技術(shù)    261
 17.2.3  KafKa的通信原理    261
 17.2.4  KafKa的內(nèi)部存儲(chǔ)結(jié)構(gòu)    262
 17.2.5  KafKa的下載    262
 17.2.6  KafKa集群搭建    262
 17.2.7  啟動(dòng)并使用KafKa集群    263
 17.2.8  停止KafKa集群    264
 17.2.9  KafKa集成Flume    264
17.3  Socket事件流操作    265
 17.3.1  netcat網(wǎng)絡(luò)Socket控制臺(tái)工具    265
 17.3.2  基于本地的Spark Streaming流式數(shù)據(jù)分析示例    266
 17.3.3  基于集群的Spark Streaming流式數(shù)據(jù)分析示例    269
 17.3.4  基于集群模式下的集群文件I/O流分析示例    272
17.4  KafKa事件流操作    275
 17.4.1  基于Receiver模式的KafKa集成    275
 17.4.2  基于Direct模式的KafKa集成    278
17.5  I/O文件事件流操作    280
 17.5.1  基于路徑掃描的Spark Streaming    281
 17.5.2  打包至工程的dist目錄    284
 17.5.3  啟動(dòng)集群    284
第18章  Spark機(jī)器學(xué)習(xí)    289
18.1  機(jī)器學(xué)習(xí)原理    289
 18.1.1  機(jī)器學(xué)習(xí)的概念    289
 18.1.2  機(jī)器學(xué)習(xí)的分類    289
 18.1.3  Spark機(jī)器學(xué)習(xí)的版本演變    290
 18.1.4  DataFrame數(shù)據(jù)結(jié)構(gòu)    290
 18.1.5  DataSet數(shù)據(jù)結(jié)構(gòu)    290
 18.1.6  執(zhí)行引擎的性能與效率    290
 18.1.7  Spark 2.x的新特性    290
18.2  線性回歸    291
 18.2.1  線性回歸分析過程    291
 18.2.2  矩陣分析過程    291
 18.2.3  基于本地模式的線性回歸分析    291
 18.2.4  基于集群模式的線性回歸分析    294
18.3  聚類分析    300
 18.3.1  K-Means聚類算法原理    300
 18.3.2  聚類分析過程    300
 18.3.3  基于本地模式的聚類算法分析    301
 18.3.4  基于集群模式的聚類算法分析    305
18.4  協(xié)同過濾    312
 18.4.1  個(gè)性化推薦算法    312
 18.4.2  相關(guān)性推薦算法    312
 18.4.3  基于本地的協(xié)同過濾算法分析    312
 18.4.4  基于集群的協(xié)同過濾算法分析    317
第4篇  項(xiàng)目實(shí)戰(zhàn)
第19章  基于電力能源的大數(shù)據(jù)實(shí)戰(zhàn)    325
19.1  需求分析    325
19.2  項(xiàng)目設(shè)計(jì)    325
 19.2.1  數(shù)據(jù)采集    325
 19.2.2  數(shù)據(jù)處理    326
 19.2.3  數(shù)據(jù)呈現(xiàn)    326
19.3  數(shù)據(jù)收集與處理    329
 19.3.1  數(shù)據(jù)收集    329
 19.3.2  數(shù)據(jù)處理    329
19.4  大數(shù)據(jù)呈現(xiàn)    341
 19.4.1  數(shù)據(jù)傳輸    341
 19.4.2  數(shù)據(jù)呈現(xiàn)    342
19.5  項(xiàng)目總結(jié)    343

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號