注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡(luò)家庭與辦公軟件Hadoop+Spark大數(shù)據(jù)技術(shù)(微課版)

Hadoop+Spark大數(shù)據(jù)技術(shù)(微課版)

Hadoop+Spark大數(shù)據(jù)技術(shù)(微課版)

定 價:¥69.00

作 者: 劉彬斌,李柏章,周磊,李永富 著
出版社: 清華大學出版社
叢編項: 大數(shù)據(jù)與人工智能技術(shù)叢書
標 簽: 暫缺

ISBN: 9787302514275 出版時間: 2018-12-01 包裝: 平裝
開本: 16開 頁數(shù): 343 字數(shù):  

內(nèi)容簡介

  本書從初學者角度出發(fā),通過豐富的實例,詳細介紹了大數(shù)據(jù)開發(fā)環(huán)境和基本知識點的應(yīng)用。全書內(nèi)容包括:大數(shù)據(jù)系統(tǒng)基礎(chǔ)篇、Hadoop技術(shù)篇、Spark技術(shù)篇和項目實戰(zhàn)篇。大數(shù)據(jù)系統(tǒng)基礎(chǔ)篇講解Linux的安裝、Linux的使用和在Linux系統(tǒng)上安裝并使用MySQL;Hadoop技術(shù)篇講解Hadoop集群的搭建、Hadoop兩大核心的原理與使用、Hadoop生態(tài)圈的工具原理與使用(Hive、HBase、Sqoop、Flume等);Spark技術(shù)篇講解Spark集群的搭建、Scala語言、RDD、Spark SQL、Spark streaming和機器學習;項目實戰(zhàn)篇將真實的電力能源大數(shù)據(jù)分析項目作為實戰(zhàn)解讀,幫助初學者快速入門。本書所有知識點都結(jié)合具體實例和程序講解,便于讀者理解和掌握。本書適合作為高等院校計算機應(yīng)用、大數(shù)據(jù)技術(shù)及相關(guān)專業(yè)的教材;也適合作為大數(shù)據(jù)開發(fā)入門者的自學用書,可快速提高開發(fā)技能。

作者簡介

暫缺《Hadoop+Spark大數(shù)據(jù)技術(shù)(微課版)》作者簡介

圖書目錄

第1篇  大數(shù)據(jù)系統(tǒng)基礎(chǔ)
第1章  大數(shù)據(jù)概述    3
1.1  數(shù)據(jù)的產(chǎn)生與發(fā)展    3
1.2  大數(shù)據(jù)的基礎(chǔ)知識    4
1.3  大數(shù)據(jù)架構(gòu)    5
第2章  系統(tǒng)的安裝與使用    7
2.1  系統(tǒng)安裝    7
 2.1.1  安裝CentOS 6.x    7
 2.1.2  安裝步驟    7
2.2  基本命令    18
 2.2.1  cd命令    18
 2.2.2  打包和解壓指令    19
 2.2.3  其他常用命令    21
2.3  權(quán)限與目錄    26
 2.3.1  權(quán)限    26
 2.3.2  目錄    27
2.4  文件操作    28
 2.4.1  文件與目錄管理    28
 2.4.2  用戶和用戶組管理    39
2.5  習題與思考    46
第3章  任務(wù)命令    47
3.1  腳本配置    47
 3.1.1  Shell腳本    47
 3.1.2  Shell變量    47
 3.1.3  Shell傳遞參數(shù)    48
 3.1.4  Shell數(shù)組    50
 3.1.5  Shell運算符    51
 3.1.6  Shell echo命令    55
 3.1.7  Shell printf命令    57
 3.1.8  Shell test命令    58
 3.1.9  Shell流程控制    60
3.2  網(wǎng)絡(luò)配置    67
3.3  習題與思考    70
第4章  數(shù)據(jù)庫操作    71
4.1  數(shù)據(jù)庫簡介    71
 4.1.1  MySQL數(shù)據(jù)庫簡介    71
 4.1.2  安裝MySQL    72
4.2  數(shù)據(jù)庫基本操作    72
 4.2.1  MySQL的DDL操作    72
 4.2.2  MySQL的DML操作    80
4.3  數(shù)據(jù)庫用戶操作    83
 4.3.1  創(chuàng)建用戶    83
 4.3.2  給用戶授權(quán)    83
 4.3.3  撤銷授權(quán)    84
 4.3.4  查看用戶權(quán)限    85
 4.3.5  刪除用戶    85
 4.3.6  修改用戶密碼    86
4.4  數(shù)據(jù)庫查詢操作    86
4.5  習題與思考    90
第2篇  Hadoop技術(shù)
第5章  Hadoop開發(fā)環(huán)境    95
5.1  Hadoop生態(tài)圈工具    95
5.2  環(huán)境搭建    97
 5.2.1  步驟1——虛擬機安裝    97
 5.2.2  步驟2——安裝JDK和Hadoop    97
 5.2.3  步驟3——復(fù)制虛擬機    113
 5.2.4  步驟4——設(shè)置免密    117
 5.2.5  步驟5——安裝Zookeeper    119
 5.2.6  步驟6——啟動Hadoop集群    122
 5.2.7  正常啟動順序    125
5.3  常見問題匯總    127
5.4  習題與思考    128
第6章  HDFS技術(shù)    129
6.1  HDFS架構(gòu)    129
6.2  HDFS命令    130
 6.2.1  version命令    131
 6.2.2  dfsadmin命令    131
 6.2.3  jar命令    132
 6.2.4  fs命令    132
6.3  API的使用    140
6.4  習題與思考    142
第7章  MapReduce技術(shù)    143
7.1  MapReduce工作原理    143
 7.1.1  MapReduce作業(yè)運行流程    143
 7.1.2  早期MapReduce架構(gòu)存在的問題    144
7.2  YARN運行概述    144
 7.2.1  YARN模塊介紹    144
 7.2.2  YARN工作流程    145
7.3  MapReduce編程模型    146
7.4  MapReduce數(shù)據(jù)流    148
 7.4.1  輸入文件    150
 7.4.2  輸入格式    150
 7.4.3  數(shù)據(jù)片段    151
 7.4.4  記錄讀取器    151
 7.4.5  Mapper    151
 7.4.6  Shuffle    152
 7.4.7  排序    153
 7.4.8  歸約    153
 7.4.9  輸出格式    153
7.5  MapReduce API編程    154
 7.5.1  詞頻統(tǒng)計    154
 7.5.2  指定字段    156
 7.5.3  求平均數(shù)    158
 7.5.4  關(guān)聯(lián)    160
7.6  習題與思考    163
第8章  Hive數(shù)據(jù)倉庫    165
8.1  Hive模型    165
 8.1.1  Hive架構(gòu)與基本組成    165
 8.1.2  Hive的數(shù)據(jù)模型    166
8.2  Hive的安裝    167
 8.2.1  Hive的基本安裝    167
 8.2.2  MySQL的安裝    168
 8.2.3  Hive配置    169
8.3  HQL詳解    170
 8.3.1  Hive數(shù)據(jù)管理方式    170
 8.3.2  HQL操作    174
8.4  習題與思考    182
第9章  HBase分布式數(shù)據(jù)庫    183
9.1  HBase工作原理    183
 9.1.1  HBase表結(jié)構(gòu)    183
 9.1.2  體系結(jié)構(gòu)    184
 9.1.3  物理模型    186
 9.1.4  HBase讀寫流程    187
9.2  HBase完全分布式    189
 9.2.1  安裝前的準備    189
 9.2.2  配置文件    189
 9.2.3  集群啟動    191
9.3  HBase Shell    192
 9.3.1  DDL操作    192
 9.3.2  DML操作    194
9.4  習題與思考    197
第10章  Sqoop工具    198
10.1  Sqoop安裝    199
10.2  Sqoop的使用    200
 10.2.1  MySQL的導(dǎo)入導(dǎo)出    200
 10.2.2  Oracle的導(dǎo)入導(dǎo)出    201
10.3  習題與思考    202
第11章  Flume日志收集    203
11.1  體系架構(gòu)    204
 11.1.1  Flume內(nèi)部結(jié)構(gòu)    204
 11.1.2  Flume事件    204
11.2  Flume的特點    205
11.3  Flume集群搭建    206
11.4  Flume實例    207
 11.4.1  實例1:實時測試客戶端傳輸?shù)臄?shù)據(jù)    207
 11.4.2  實例2:監(jiān)控本地文件夾并寫入到HDFS中    208
11.5  習題與思考    210
第3篇  Spark技術(shù)
第12章  Spark概述    213
12.1  Spark框架原理    213
12.2  Spark大數(shù)據(jù)處理    214
12.3  RDD數(shù)據(jù)集    215
12.4  Spark子系統(tǒng)    215
第13章  Scala語言    216
13.1  Scala語法基礎(chǔ)    216
 13.1.1  變量、常量與賦值    216
 13.1.2  運算符與表達式    217
 13.1.3  條件分支控制    217
 13.1.4  循環(huán)流程控制    218
 13.1.5  Scala數(shù)據(jù)類型    218
13.2  Scala運算與函數(shù)    219
13.3  Scala閉包    220
13.4  Scala數(shù)組與字符串    220
 13.4.1  Scala數(shù)組    220
 13.4.2  Scala字符串    221
13.5  Scala迭代器    221
13.6  Scala類和對象    222
13.7  習題與思考    223
第14章  Spark高可用環(huán)境    224
14.1  環(huán)境搭建    224
 14.1.1  準備工作    224
 14.1.2  下載并安裝Spark    224
14.2  常見問題匯總    226
第15章  RDD技術(shù)    228
15.1  RDD的實現(xiàn)    228
 15.1.1  數(shù)據(jù)源    228
 15.1.2  調(diào)度器    228
15.2  RDD編程接口    229
15.3  RDD操作    229
 15.3.1  Spark基于命令行的操作    229
 15.3.2  Spark基于應(yīng)用作業(yè)的操作    231
 15.3.3  Spark操作的基礎(chǔ)命令與開發(fā)工具介紹    231
 15.3.4  Spark基于YARN的調(diào)度模式    231
 15.3.5  Spark基于Scala語言的本地應(yīng)用開發(fā)    234
 15.3.6  Spark基于Scala語言的集群應(yīng)用開發(fā)    235
 15.3.7  Spark基于Java語言的應(yīng)用開發(fā)    236
 15.3.8  Spark基于Java語言的本地應(yīng)用開發(fā)    237
 15.3.9  Spark基于Java語言的集群應(yīng)用開發(fā)    238
15.4  習題與思考    241
第16章  Spark SQL    242
16.1  Spark SQL架構(gòu)原理    242
 16.1.1  Hive的兩種功能    242
 16.1.2  Spark SQL的重要功能    242
 16.1.3  Spark SQL的DataFrame特征    243
16.2  Spark SQL操作Hive    243
 16.2.1  添加配置文件,便于Spark SQL訪問Hive倉庫    243
 16.2.2  安裝JDBC驅(qū)動    243
 16.2.3  啟動MySQL服務(wù)及其Hive的元數(shù)據(jù)服務(wù)    243
 16.2.4  啟動HDFS集群和Spark集群    244
 16.2.5  啟動Spark-Shell并測試    244
16.3  Spark SQL操作HDFS    244
 16.3.1  操作代碼    244
 16.3.2  工程文件    246
 16.3.3  創(chuàng)建測試數(shù)據(jù)    246
 16.3.4  運行Job并提交到集群    247
 16.3.5  查看運行結(jié)果    247
16.4  Spark SQL操作關(guān)系數(shù)據(jù)庫    248
 16.4.1  添加訪問MySQL的驅(qū)動包    248
 16.4.2  添加必要的開發(fā)環(huán)境    248
 16.4.3  使用Spark SQL操作關(guān)系數(shù)據(jù)庫    248
 16.4.4  初始化MySQL數(shù)據(jù)庫服務(wù)    250
 16.4.5  準備Spark SQL源數(shù)據(jù)    251
 16.4.6  運行Spark代碼    252
 16.4.7  創(chuàng)建dist文件夾    252
 16.4.8  安裝數(shù)據(jù)庫驅(qū)動    252
 16.4.9  基于集群操作    253
 16.4.10  打包工程代碼到dist目錄下    256
 16.4.11  啟動集群并提交Job應(yīng)用    256
 16.4.12  檢查關(guān)系數(shù)據(jù)庫中是否已有數(shù)據(jù)    258
16.5  習題與思考    258
第17章  Spark Streaming    260
17.1  架構(gòu)與原理    260
 17.1.1  Spark Streaming中的離散流特征    260
 17.1.2  Spark Streaming的應(yīng)用場景    260
17.2  KafKa中間件    261
 17.2.1  KafKa的特點    261
 17.2.2  ZeroCopy技術(shù)    261
 17.2.3  KafKa的通信原理    261
 17.2.4  KafKa的內(nèi)部存儲結(jié)構(gòu)    262
 17.2.5  KafKa的下載    262
 17.2.6  KafKa集群搭建    262
 17.2.7  啟動并使用KafKa集群    263
 17.2.8  停止KafKa集群    264
 17.2.9  KafKa集成Flume    264
17.3  Socket事件流操作    265
 17.3.1  netcat網(wǎng)絡(luò)Socket控制臺工具    265
 17.3.2  基于本地的Spark Streaming流式數(shù)據(jù)分析示例    266
 17.3.3  基于集群的Spark Streaming流式數(shù)據(jù)分析示例    269
 17.3.4  基于集群模式下的集群文件I/O流分析示例    272
17.4  KafKa事件流操作    275
 17.4.1  基于Receiver模式的KafKa集成    275
 17.4.2  基于Direct模式的KafKa集成    278
17.5  I/O文件事件流操作    280
 17.5.1  基于路徑掃描的Spark Streaming    281
 17.5.2  打包至工程的dist目錄    284
 17.5.3  啟動集群    284
第18章  Spark機器學習    289
18.1  機器學習原理    289
 18.1.1  機器學習的概念    289
 18.1.2  機器學習的分類    289
 18.1.3  Spark機器學習的版本演變    290
 18.1.4  DataFrame數(shù)據(jù)結(jié)構(gòu)    290
 18.1.5  DataSet數(shù)據(jù)結(jié)構(gòu)    290
 18.1.6  執(zhí)行引擎的性能與效率    290
 18.1.7  Spark 2.x的新特性    290
18.2  線性回歸    291
 18.2.1  線性回歸分析過程    291
 18.2.2  矩陣分析過程    291
 18.2.3  基于本地模式的線性回歸分析    291
 18.2.4  基于集群模式的線性回歸分析    294
18.3  聚類分析    300
 18.3.1  K-Means聚類算法原理    300
 18.3.2  聚類分析過程    300
 18.3.3  基于本地模式的聚類算法分析    301
 18.3.4  基于集群模式的聚類算法分析    305
18.4  協(xié)同過濾    312
 18.4.1  個性化推薦算法    312
 18.4.2  相關(guān)性推薦算法    312
 18.4.3  基于本地的協(xié)同過濾算法分析    312
 18.4.4  基于集群的協(xié)同過濾算法分析    317
第4篇  項目實戰(zhàn)
第19章  基于電力能源的大數(shù)據(jù)實戰(zhàn)    325
19.1  需求分析    325
19.2  項目設(shè)計    325
 19.2.1  數(shù)據(jù)采集    325
 19.2.2  數(shù)據(jù)處理    326
 19.2.3  數(shù)據(jù)呈現(xiàn)    326
19.3  數(shù)據(jù)收集與處理    329
 19.3.1  數(shù)據(jù)收集    329
 19.3.2  數(shù)據(jù)處理    329
19.4  大數(shù)據(jù)呈現(xiàn)    341
 19.4.1  數(shù)據(jù)傳輸    341
 19.4.2  數(shù)據(jù)呈現(xiàn)    342
19.5  項目總結(jié)    343

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號