精品国产123网,91精品尤物在线观看

內(nèi)容簡介

　　本書從初學者角度出發(fā)，通過豐富的實例，詳細介紹了大數(shù)據(jù)開發(fā)環(huán)境和基本知識點的應用。全書內(nèi)容包括：大數(shù)據(jù)系統(tǒng)基礎(chǔ)篇、Hadoop技術(shù)篇、Spark技術(shù)篇和項目實戰(zhàn)篇。大數(shù)據(jù)系統(tǒng)基礎(chǔ)篇講解Linux的安裝、Linux的使用和在Linux系統(tǒng)上安裝并使用MySQL；Hadoop技術(shù)篇講解Hadoop集群的搭建、Hadoop兩大核心的原理與使用、Hadoop生態(tài)圈的工具原理與使用（Hive、HBase、Sqoop、Flume等）；Spark技術(shù)篇講解Spark集群的搭建、Scala語言、RDD、Spark SQL、Spark streaming和機器學習；項目實戰(zhàn)篇將真實的電力能源大數(shù)據(jù)分析項目作為實戰(zhàn)解讀，幫助初學者快速入門。本書所有知識點都結(jié)合具體實例和程序講解，便于讀者理解和掌握。本書適合作為高等院校計算機應用、大數(shù)據(jù)技術(shù)及相關(guān)專業(yè)的教材；也適合作為大數(shù)據(jù)開發(fā)入門者的自學用書，可快速提高開發(fā)技能。

作者簡介

暫缺《Hadoop+Spark大數(shù)據(jù)技術(shù)（微課版）》作者簡介

圖書目錄

第1篇大數(shù)據(jù)系統(tǒng)基礎(chǔ)
第1章大數(shù)據(jù)概述   3
1.1 數(shù)據(jù)的產(chǎn)生與發(fā)展   3
1.2 大數(shù)據(jù)的基礎(chǔ)知識   4
1.3 大數(shù)據(jù)架構(gòu)   5
第2章系統(tǒng)的安裝與使用   7
2.1 系統(tǒng)安裝   7
2.1.1 安裝CentOS 6.x   7
2.1.2 安裝步驟   7
2.2 基本命令   18
2.2.1 cd命令   18
2.2.2 打包和解壓指令   19
2.2.3 其他常用命令   21
2.3 權(quán)限與目錄   26
2.3.1 權(quán)限   26
2.3.2 目錄   27
2.4 文件操作   28
2.4.1 文件與目錄管理   28
2.4.2 用戶和用戶組管理   39
2.5 習題與思考   46
第3章任務命令   47
3.1 腳本配置   47
3.1.1 Shell腳本   47
3.1.2 Shell變量   47
3.1.3 Shell傳遞參數(shù)   48
3.1.4 Shell數(shù)組   50
3.1.5 Shell運算符   51
3.1.6 Shell echo命令   55
3.1.7 Shell printf命令   57
3.1.8 Shell test命令   58
3.1.9 Shell流程控制   60
3.2 網(wǎng)絡配置   67
3.3 習題與思考   70
第4章數(shù)據(jù)庫操作   71
4.1 數(shù)據(jù)庫簡介   71
4.1.1 MySQL數(shù)據(jù)庫簡介   71
4.1.2 安裝MySQL   72
4.2 數(shù)據(jù)庫基本操作   72
4.2.1 MySQL的DDL操作   72
4.2.2 MySQL的DML操作   80
4.3 數(shù)據(jù)庫用戶操作   83
4.3.1 創(chuàng)建用戶   83
4.3.2 給用戶授權(quán)   83
4.3.3 撤銷授權(quán)   84
4.3.4 查看用戶權(quán)限   85
4.3.5 刪除用戶   85
4.3.6 修改用戶密碼   86
4.4 數(shù)據(jù)庫查詢操作   86
4.5 習題與思考   90
第2篇 Hadoop技術(shù)
第5章 Hadoop開發(fā)環(huán)境   95
5.1 Hadoop生態(tài)圈工具   95
5.2 環(huán)境搭建   97
5.2.1 步驟1——虛擬機安裝   97
5.2.2 步驟2——安裝JDK和Hadoop   97
5.2.3 步驟3——復制虛擬機   113
5.2.4 步驟4——設置免密   117
5.2.5 步驟5——安裝Zookeeper   119
5.2.6 步驟6——啟動Hadoop集群   122
5.2.7 正常啟動順序   125
5.3 常見問題匯總   127
5.4 習題與思考   128
第6章 HDFS技術(shù)   129
6.1 HDFS架構(gòu)   129
6.2 HDFS命令   130
6.2.1 version命令   131
6.2.2 dfsadmin命令   131
6.2.3 jar命令   132
6.2.4 fs命令   132
6.3 API的使用   140
6.4 習題與思考   142
第7章 MapReduce技術(shù)   143
7.1 MapReduce工作原理   143
7.1.1 MapReduce作業(yè)運行流程   143
7.1.2 早期MapReduce架構(gòu)存在的問題   144
7.2 YARN運行概述   144
7.2.1 YARN模塊介紹   144
7.2.2 YARN工作流程   145
7.3 MapReduce編程模型   146
7.4 MapReduce數(shù)據(jù)流   148
7.4.1 輸入文件   150
7.4.2 輸入格式   150
7.4.3 數(shù)據(jù)片段   151
7.4.4 記錄讀取器   151
7.4.5 Mapper   151
7.4.6 Shuffle   152
7.4.7 排序   153
7.4.8 歸約   153
7.4.9 輸出格式   153
7.5 MapReduce API編程   154
7.5.1 詞頻統(tǒng)計   154
7.5.2 指定字段   156
7.5.3 求平均數(shù)   158
7.5.4 關(guān)聯(lián)   160
7.6 習題與思考   163
第8章 Hive數(shù)據(jù)倉庫   165
8.1 Hive模型   165
8.1.1 Hive架構(gòu)與基本組成   165
8.1.2 Hive的數(shù)據(jù)模型   166
8.2 Hive的安裝   167
8.2.1 Hive的基本安裝   167
8.2.2 MySQL的安裝   168
8.2.3 Hive配置   169
8.3 HQL詳解   170
8.3.1 Hive數(shù)據(jù)管理方式   170
8.3.2 HQL操作   174
8.4 習題與思考   182
第9章 HBase分布式數(shù)據(jù)庫   183
9.1 HBase工作原理   183
9.1.1 HBase表結(jié)構(gòu)   183
9.1.2 體系結(jié)構(gòu)   184
9.1.3 物理模型   186
9.1.4 HBase讀寫流程   187
9.2 HBase完全分布式   189
9.2.1 安裝前的準備   189
9.2.2 配置文件   189
9.2.3 集群啟動   191
9.3 HBase Shell   192
9.3.1 DDL操作   192
9.3.2 DML操作   194
9.4 習題與思考   197
第10章 Sqoop工具   198
10.1 Sqoop安裝   199
10.2 Sqoop的使用   200
10.2.1 MySQL的導入導出   200
10.2.2 Oracle的導入導出   201
10.3 習題與思考   202
第11章 Flume日志收集   203
11.1 體系架構(gòu)   204
11.1.1 Flume內(nèi)部結(jié)構(gòu)   204
11.1.2 Flume事件   204
11.2 Flume的特點   205
11.3 Flume集群搭建   206
11.4 Flume實例   207
11.4.1 實例1：實時測試客戶端傳輸?shù)臄?shù)據(jù)   207
11.4.2 實例2：監(jiān)控本地文件夾并寫入到HDFS中   208
11.5 習題與思考   210
第3篇 Spark技術(shù)
第12章 Spark概述   213
12.1 Spark框架原理   213
12.2 Spark大數(shù)據(jù)處理   214
12.3 RDD數(shù)據(jù)集   215
12.4 Spark子系統(tǒng)   215
第13章 Scala語言   216
13.1 Scala語法基礎(chǔ)   216
　13.1.1 變量、常量與賦值   216
　13.1.2 運算符與表達式   217
　13.1.3 條件分支控制   217
　13.1.4 循環(huán)流程控制   218
　13.1.5 Scala數(shù)據(jù)類型   218
13.2 Scala運算與函數(shù)   219
13.3 Scala閉包   220
13.4 Scala數(shù)組與字符串   220
　13.4.1 Scala數(shù)組   220
　13.4.2 Scala字符串   221
13.5 Scala迭代器   221
13.6 Scala類和對象   222
13.7 習題與思考   223
第14章 Spark高可用環(huán)境   224
14.1 環(huán)境搭建   224
　14.1.1 準備工作   224
　14.1.2 下載并安裝Spark   224
14.2 常見問題匯總   226
第15章 RDD技術(shù)   228
15.1 RDD的實現(xiàn)   228
　15.1.1 數(shù)據(jù)源   228
　15.1.2 調(diào)度器   228
15.2 RDD編程接口   229
15.3 RDD操作   229
　15.3.1 Spark基于命令行的操作   229
　15.3.2 Spark基于應用作業(yè)的操作   231
　15.3.3 Spark操作的基礎(chǔ)命令與開發(fā)工具介紹   231
　15.3.4 Spark基于YARN的調(diào)度模式   231
　15.3.5 Spark基于Scala語言的本地應用開發(fā)   234
　15.3.6 Spark基于Scala語言的集群應用開發(fā)   235
　15.3.7 Spark基于Java語言的應用開發(fā)   236
　15.3.8 Spark基于Java語言的本地應用開發(fā)   237
　15.3.9 Spark基于Java語言的集群應用開發(fā)   238
15.4 習題與思考   241
第16章 Spark SQL   242
16.1 Spark SQL架構(gòu)原理   242
　16.1.1 Hive的兩種功能   242
　16.1.2 Spark SQL的重要功能   242
　16.1.3 Spark SQL的DataFrame特征   243
16.2 Spark SQL操作Hive   243
　16.2.1 添加配置文件，便于Spark SQL訪問Hive倉庫   243
　16.2.2 安裝JDBC驅(qū)動   243
　16.2.3 啟動MySQL服務及其Hive的元數(shù)據(jù)服務   243
　16.2.4 啟動HDFS集群和Spark集群   244
　16.2.5 啟動Spark-Shell并測試   244
16.3 Spark SQL操作HDFS   244
　16.3.1 操作代碼   244
　16.3.2 工程文件   246
　16.3.3 創(chuàng)建測試數(shù)據(jù)   246
　16.3.4 運行Job并提交到集群   247
　16.3.5 查看運行結(jié)果   247
16.4 Spark SQL操作關(guān)系數(shù)據(jù)庫   248
　16.4.1 添加訪問MySQL的驅(qū)動包   248
　16.4.2 添加必要的開發(fā)環(huán)境   248
　16.4.3 使用Spark SQL操作關(guān)系數(shù)據(jù)庫   248
　16.4.4 初始化MySQL數(shù)據(jù)庫服務   250
　16.4.5 準備Spark SQL源數(shù)據(jù)   251
　16.4.6 運行Spark代碼   252
　16.4.7 創(chuàng)建dist文件夾   252
　16.4.8 安裝數(shù)據(jù)庫驅(qū)動   252
　16.4.9 基于集群操作   253
　16.4.10 打包工程代碼到dist目錄下   256
　16.4.11 啟動集群并提交Job應用   256
　16.4.12 檢查關(guān)系數(shù)據(jù)庫中是否已有數(shù)據(jù)   258
16.5 習題與思考   258
第17章 Spark Streaming   260
17.1 架構(gòu)與原理   260
　17.1.1 Spark Streaming中的離散流特征   260
　17.1.2 Spark Streaming的應用場景   260
17.2 KafKa中間件   261
　17.2.1 KafKa的特點   261
　17.2.2 ZeroCopy技術(shù)   261
　17.2.3 KafKa的通信原理   261
　17.2.4 KafKa的內(nèi)部存儲結(jié)構(gòu)   262
　17.2.5 KafKa的下載   262
　17.2.6 KafKa集群搭建   262
　17.2.7 啟動并使用KafKa集群   263
　17.2.8 停止KafKa集群   264
　17.2.9 KafKa集成Flume   264
17.3 Socket事件流操作   265
　17.3.1 netcat網(wǎng)絡Socket控制臺工具   265
　17.3.2 基于本地的Spark Streaming流式數(shù)據(jù)分析示例   266
　17.3.3 基于集群的Spark Streaming流式數(shù)據(jù)分析示例   269
　17.3.4 基于集群模式下的集群文件I/O流分析示例   272
17.4 KafKa事件流操作   275
　17.4.1 基于Receiver模式的KafKa集成   275
　17.4.2 基于Direct模式的KafKa集成   278
17.5 I/O文件事件流操作   280
　17.5.1 基于路徑掃描的Spark Streaming   281
　17.5.2 打包至工程的dist目錄   284
　17.5.3 啟動集群   284
第18章 Spark機器學習   289
18.1 機器學習原理   289
　18.1.1 機器學習的概念   289
　18.1.2 機器學習的分類   289
　18.1.3 Spark機器學習的版本演變   290
　18.1.4 DataFrame數(shù)據(jù)結(jié)構(gòu)   290
　18.1.5 DataSet數(shù)據(jù)結(jié)構(gòu)   290
　18.1.6 執(zhí)行引擎的性能與效率   290
　18.1.7 Spark 2.x的新特性   290
18.2 線性回歸   291
　18.2.1 線性回歸分析過程   291
　18.2.2 矩陣分析過程   291
　18.2.3 基于本地模式的線性回歸分析   291
　18.2.4 基于集群模式的線性回歸分析   294
18.3 聚類分析   300
　18.3.1 K-Means聚類算法原理   300
　18.3.2 聚類分析過程   300
　18.3.3 基于本地模式的聚類算法分析   301
　18.3.4 基于集群模式的聚類算法分析   305
18.4 協(xié)同過濾   312
　18.4.1 個性化推薦算法   312
　18.4.2 相關(guān)性推薦算法   312
　18.4.3 基于本地的協(xié)同過濾算法分析   312
　18.4.4 基于集群的協(xié)同過濾算法分析   317
第4篇項目實戰(zhàn)
第19章基于電力能源的大數(shù)據(jù)實戰(zhàn)   325
19.1 需求分析   325
19.2 項目設計   325
　19.2.1 數(shù)據(jù)采集   325
　19.2.2 數(shù)據(jù)處理   326
　19.2.3 數(shù)據(jù)呈現(xiàn)   326
19.3 數(shù)據(jù)收集與處理   329
　19.3.1 數(shù)據(jù)收集   329
　19.3.2 數(shù)據(jù)處理   329
19.4 大數(shù)據(jù)呈現(xiàn)   341
　19.4.1 數(shù)據(jù)傳輸   341
　19.4.2 數(shù)據(jù)呈現(xiàn)   342
19.5 項目總結(jié)   343

作　者：	劉彬斌，李柏章，周磊，李永富著
出版社：	清華大學出版社
叢編項：	大數(shù)據(jù)與人工智能技術(shù)叢書
標　簽：	暫缺

ISBN：	9787302514275	出版時間：	2018-12-01	包裝：	平裝
開本：	16開	頁數(shù)：	343	字數(shù)：

Hadoop+Spark大數(shù)據(jù)技術(shù)（微課版）

購買這本書可以去

內(nèi)容簡介

作者簡介

圖書目錄

本目錄推薦

Word+Excel+PPT 2019辦公應用一…

半小時教你學會PPT（案例視頻教…

MS office高效辦公必修

Excel函數(shù)與公式速查寶典（第2版…

WPSAI智能辦公從入門到精通

秒懂快捷鍵應用技巧

Python高效辦公：玩轉(zhuǎn)Excel數(shù)據(jù)…

Word文稿之美

Web應用小程序案例研究與分析

Excel電商數(shù)據(jù)分析基礎(chǔ)與實踐