注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)Hadoop+Spark大數(shù)據(jù)分析實(shí)戰(zhàn)

Hadoop+Spark大數(shù)據(jù)分析實(shí)戰(zhàn)

Hadoop+Spark大數(shù)據(jù)分析實(shí)戰(zhàn)

定 價(jià):¥69.00

作 者: 遲殿委
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787302608844 出版時(shí)間: 2022-07-01 包裝: 平裝-膠訂
開本: 16開 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書是Hadoop Spark大數(shù)據(jù)分析技術(shù)入門書,基于Hadoop和Spark兩大框架體系的3.2版本,以通俗易懂的方式介紹Hadoop Spark原生態(tài)組件的原理、集群搭建、實(shí)戰(zhàn)操作,以及整個(gè)Hadoop生態(tài)系統(tǒng)主流的大數(shù)據(jù)分析技術(shù)。 本書共分14章。第1章講解Hadoop框架及新版本特性,并詳細(xì)講解大數(shù)據(jù)分析環(huán)境的搭建工作,包括Linux操作系統(tǒng)的安裝、SSH工具使用和配置等;第2章講解Hadoop偽分布式的安裝和開發(fā)體驗(yàn),使讀者熟悉Hadoop大數(shù)據(jù)開發(fā)兩大核心組件,即HDFS和MapReduce;第3~12章講解Hadoop生態(tài)系統(tǒng)各框架HDFS、MapReduce、輸入輸出、Hadoop集群配置、高可用集群、HBase、Hive、數(shù)據(jù)實(shí)時(shí)處理系統(tǒng)Flume,以及Spark框架數(shù)據(jù)處理、機(jī)器學(xué)習(xí)等實(shí)戰(zhàn)技術(shù),并通過實(shí)際案例加深對(duì)各個(gè)框架的理解與應(yīng)用;第13~14章分別通過影評(píng)分析、旅游酒店評(píng)價(jià)分析實(shí)戰(zhàn)項(xiàng)目來貫穿大數(shù)據(jù)分析的完整流程。 本書可以作為大數(shù)據(jù)分析初學(xué)者的入門指導(dǎo)書,也可以作為大數(shù)據(jù)開發(fā)人員的參考手冊(cè),同時(shí)也適合作為高等院校大數(shù)據(jù)相關(guān)專業(yè)的教材或教學(xué)參考書。

作者簡(jiǎn)介

  遲殿委,計(jì)算機(jī)軟件與理論專業(yè)碩士,系統(tǒng)架構(gòu)設(shè)計(jì)師。有多年企業(yè)軟件研發(fā)經(jīng)驗(yàn)和豐富的JavaEE培訓(xùn)經(jīng)驗(yàn),熟練掌握J(rèn)avaEE全棧技術(shù)框架,對(duì)Java核心編程技術(shù)有深刻理解。主要擅長(zhǎng)JavaEE系統(tǒng)架構(gòu)設(shè)計(jì)、大數(shù)據(jù)分析與挖掘。著有圖書《Hadoop Spark大數(shù)據(jù)分析實(shí)戰(zhàn)》《Spring Boot企業(yè)級(jí)開發(fā)實(shí)戰(zhàn)(視頻教學(xué)版)》《Spring Boot Spring Cloud微服務(wù)開發(fā)》《深入淺出Java編程》。

圖書目錄

第1章  大數(shù)據(jù)與Hadoop 1
1.1  什么是大數(shù)據(jù) 1
1.2  大數(shù)據(jù)的來源 2
1.3  如何處理大數(shù)據(jù) 3
1.3.1  數(shù)據(jù)分析與挖掘 3
1.3.2  基于云平臺(tái)的分布式處理 4
1.4  Hadoop 3新特性 6
1.5  虛擬機(jī)與Linux操作系統(tǒng)的安裝 7
1.5.1  VirtualBox虛擬機(jī)的安裝 7
1.5.2  Linux操作系統(tǒng)的安裝 8
1.6  SSH工具與使用 14
1.7  Linux統(tǒng)一設(shè)置 16
1.8  本章小結(jié) 17
第2章  Hadoop偽分布式集群 18
2.1  安裝獨(dú)立運(yùn)行的Hadoop 19
2.2  Hadoop偽分布式環(huán)境準(zhǔn)備 21
2.3  Hadoop偽分布式安裝 25
2.4  HDFS操作命令 31
2.5  Java項(xiàng)目訪問HDFS 33
2.6  winutils 38
2.7  快速M(fèi)apReduce程序示例 39
2.8  本章小結(jié) 42
第3章  HDFS分布式文件系統(tǒng) 43
3.1  HDFS的體系結(jié)構(gòu) 43
3.2  NameNode的工作 44
3.3  SecondaryNameNode 49
3.4  DataNode 50
3.5  HDFS的命令 51
3.6  RPC遠(yuǎn)程過程調(diào)用 52
3.7  本章小結(jié) 53
第4章  分布式運(yùn)算框架MapReduce 55
4.1  MapReduce的運(yùn)算過程 55
4.2  WordCount示例 57
4.3  自定義Writable 60
4.4  Partitioner分區(qū)編程 63
4.5  自定義排序 65
4.6  Combiner編程 67
4.7  默認(rèn)Mapper和默認(rèn)Reducer 68
4.8  倒排索引 69
4.9  Shuffle 73
4.9.1  Spill過程 73
4.9.2  Sort過程 74
4.9.3  Merge過程 75
4.10  本章小結(jié) 76
第5章  Hadoop輸入輸出 78
5.1  自定義文件輸入流 79
5.1.1  自定義LineTextInputFormat 79
5.1.2  自定義ExcelInputFormat類 82
5.1.3  DBInputFormat 86
5.1.4  自定義輸出流 89
5.2  順序文件SequenceFile的讀寫 90
5.2.1  生成一個(gè)順序文件 91
5.2.2  讀取順序文件 91
5.2.3  獲取Key/Value類型 92
5.2.4  使用SequenceFileInputFormat讀取數(shù)據(jù) 93
5.3  本章小結(jié) 95
第6章  Hadoop分布式集群配置 96
6.1  Hadoop集群 96
6.2  本章小結(jié) 100
第7章  Hadoop高可用集群搭建 101
7.1  ZooKeeper簡(jiǎn)介 101
7.2  ZooKeeper集群安裝 104
7.3  znode節(jié)點(diǎn)類型 105
7.4  觀察節(jié)點(diǎn) 106
7.5  配置Hadoop高可靠集群 106
7.6  用Java代碼操作集群 115
7.7  本章小結(jié) 117
第8章  數(shù)據(jù)倉(cāng)庫(kù)Hive 118
8.1  Hive簡(jiǎn)介 118
8.2  Hive3的安裝配置 120
8.2.1  使用Derby數(shù)據(jù)庫(kù)保存元數(shù)據(jù) 120
8.2.2  使用MySQL數(shù)據(jù)庫(kù)保存元數(shù)據(jù) 121
8.3  Hive命令 124
8.4  Hive內(nèi)部表 127
8.5  Hive外部表 128
8.6  Hive表分區(qū) 128
8.6.1  分區(qū)的技術(shù)細(xì)節(jié) 128
8.6.2  分區(qū)示例 131
8.7  查詢示例匯總 133
8.8  Hive函數(shù) 134
8.8.1  關(guān)系運(yùn)算符號(hào) 135
8.8.2  更多函數(shù) 136
8.8.3  使用Hive函數(shù)實(shí)現(xiàn)WordCount 138
8.9  本章小結(jié) 140
第9章  HBase數(shù)據(jù)庫(kù) 141
9.1  HBase的特點(diǎn) 141
9.1.1  HBase的高并發(fā)和實(shí)時(shí)處理數(shù)據(jù) 142
9.1.2  HBase的數(shù)據(jù)模型 142
9.2  HBase的安裝 144
9.2.1  HBase的單節(jié)點(diǎn)安裝 145
9.2.2  HBase的偽分布式安裝 147
9.2.3  Java客戶端代碼 149
9.2.4  其他Java操作代碼 152
9.3  HBase集群安裝 155
9.4  HBase Shell操作 159
9.4.1  DDL操作 160
9.4.2  DML操作 162
9.5  本章小結(jié) 166
第10章  Flume數(shù)據(jù)采集 167
10.1  Flume簡(jiǎn)介 167
10.1.1  Flume原理 167
10.1.2  Flume的一些核心概念 168
10.2  Flume的安裝與配置 169
10.3  快速示例 169
10.4  在ZooKeeper中保存Flume的配置文件 171
10.5  Flume的更多Source 174
10.5.1  avro source 174
10.5.2  thrift source和thrift sink 178
10.5.3  exec source 181
10.5.4  spool source 182
10.5.5  HDFS sinks 183
10.6  本章小結(jié) 184
第11章  Spark框架搭建及應(yīng)用 185
11.1  安裝Spark 186
11.1.1  本地模式 186
11.1.2  偽分布式安裝 188
11.1.3  集群安裝 191
11.1.4  Spark on YARN 193
11.2  使用Scala開發(fā)Spark應(yīng)用 196
11.2.1  安裝Scala 196
11.2.2  開發(fā)Spark程序 197
11.3  spark-submit 200
11.3.1  使用spark-submit提交 200
11.3.2  spark-submit參數(shù)說明 201
11.4  DataFrame 203
11.4.1  DataFrame概述 203
11.4.2  DataFrame基礎(chǔ)應(yīng)用 205
11.5  Spark SQL 210
11.5.1  快速示例 211
11.5.2  Read和Write 215
11.6  Spark Streaming 216
11.6.1  快速示例 217
11.6.2  DStream 220
11.6.3  FileStream 220
11.6.4  窗口函數(shù) 222
11.6.5  updateStateByKey 223
11.7  共享變量 225
11.7.1  廣播變量 225
11.7.2  累加器 227
11.8  本章小結(jié) 227
第12章  Spark機(jī)器學(xué)習(xí) 228
12.1  機(jī)器學(xué)習(xí) 228
12.1.1  機(jī)器學(xué)習(xí)概述 228
12.1.2  Spark ML 230
12.2  典型機(jī)器學(xué)習(xí)流程介紹 230
12.2.1  提出問題 230
12.2.2  假設(shè)函數(shù) 231
12.2.3  代價(jià)函數(shù) 232
12.2.4  訓(xùn)練模型確定參數(shù) 233
12.3  經(jīng)典算法模型實(shí)戰(zhàn) 233
12.3.1  聚類算法實(shí)戰(zhàn) 233
12.3.2  回歸算法實(shí)戰(zhàn) 236
12.3.3  協(xié)同過濾算法實(shí)戰(zhàn) 239
第13章  影評(píng)分析項(xiàng)目實(shí)戰(zhàn) 245
13.1  項(xiàng)目?jī)?nèi)容 245
13.2  項(xiàng)目需求及分析 246
13.3  詳細(xì)實(shí)現(xiàn) 250
13.3.1  搭建項(xiàng)目環(huán)境 250
13.3.2  編寫爬蟲類 253
13.3.3  編寫分詞類 255
13.3.4  第一個(gè)job的Map階段實(shí)現(xiàn) 259
13.3.5  一個(gè)job的Reduce階段實(shí)現(xiàn) 259
13.3.6  第二個(gè)job的Map階段實(shí)現(xiàn) 260
13.3.7  第二個(gè)job的自定義排序類階段的實(shí)現(xiàn) 261
13.3.8  第二個(gè)job的自定義分區(qū)階段實(shí)現(xiàn) 261
13.3.9  第二個(gè)job的Reduce階段實(shí)現(xiàn) 262
13.3.10  Run程序主類實(shí)現(xiàn) 262
13.3.11  編寫詞云類 263
13.3.12  效果測(cè)試 264
第14章  旅游酒店評(píng)價(jià)分析項(xiàng)目實(shí)戰(zhàn) 266
14.1  項(xiàng)目介紹 266
14.2  項(xiàng)目需求及分析 267
14.2.1  數(shù)據(jù)集需求 267
14.2.2  功能需求 267
14.3  詳細(xì)實(shí)現(xiàn) 268
14.3.1  數(shù)據(jù)集上傳到HDFS 269
14.3.2  Spark數(shù)據(jù)清洗 271
14.3.3  構(gòu)建Hive數(shù)據(jù)倉(cāng)庫(kù)表 274
14.3.4  Hive表數(shù)據(jù)導(dǎo)出到MySQL 280
14.3.5  數(shù)據(jù)可視化開發(fā) 282

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)