大數(shù)據(jù)技術(shù)（微課版）

定　價(jià)：￥59.00

作　者：	曹潔，孫玉勝著
出版社：	清華大學(xué)出版社
叢編項(xiàng)：	面向新工科專(zhuān)業(yè)建設(shè)計(jì)算機(jī)系列教材
標(biāo)　簽：	暫缺

購(gòu)買(mǎi)這本書(shū)可以去

京東 (￥51.60)

ISBN：	9787302553632	出版時(shí)間：	2020-07-01	包裝：	平裝
開(kāi)本：	16開(kāi)	頁(yè)數(shù)：	356	字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　本書(shū)系統(tǒng)地講解了大數(shù)據(jù)處理常用技術(shù)，具體包括大數(shù)據(jù)處理架構(gòu)Hadoop、分布式文件系統(tǒng)HDFS、MapReduce編程模型、分布式數(shù)據(jù)庫(kù)Hbase、NoSQL數(shù)據(jù)庫(kù)、Spark分布式內(nèi)存計(jì)算、MapReduce應(yīng)用開(kāi)發(fā)、Spark SQL編程、數(shù)據(jù)可視化。本書(shū)編寫(xiě)特色理論與具體操作相結(jié)合，較低基礎(chǔ)入門(mén)大數(shù)據(jù)技術(shù)。讀者對(duì)象是本科、專(zhuān)科或研究生大數(shù)據(jù)技術(shù)課程教材，大數(shù)據(jù)技術(shù)愛(ài)好者，其他對(duì)大數(shù)據(jù)技術(shù)感興趣的人員。

作者簡(jiǎn)介

　　曹潔：男，鄭州輕工業(yè)大學(xué)副教授，同濟(jì)大學(xué)博士畢業(yè)。研究方向：數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、并行分布式處理。近年在軟件學(xué)報(bào)、電子學(xué)報(bào)、計(jì)算機(jī)研究與發(fā)展、通信學(xué)報(bào)等刊物上發(fā)表10余篇論文。

圖書(shū)目錄

第1章大數(shù)據(jù)概述1
1.1大數(shù)據(jù)的基本概念1
1.1.1大數(shù)據(jù)的定義1
1.1.2大數(shù)據(jù)的特征1
1.2大數(shù)據(jù)技術(shù)2
1.2.1數(shù)據(jù)采集技術(shù)2
1.2.2數(shù)據(jù)預(yù)處理技術(shù)3
1.2.3云計(jì)算技術(shù)3
1.2.4分布式處理技術(shù)6
1.2.5數(shù)據(jù)存儲(chǔ)技術(shù)6
1.3大數(shù)據(jù)計(jì)算模式與典型系統(tǒng)7
1.3.1批處理計(jì)算模式與典型系統(tǒng)7
1.3.2流式計(jì)算模式與典型系統(tǒng)7
1.3.3迭代計(jì)算模式與典型系統(tǒng)8
1.3.4圖計(jì)算模式與典型系統(tǒng)8
1.3.5內(nèi)存計(jì)算模式與典型系統(tǒng)8
1.4習(xí)題8
第2章大數(shù)據(jù)軟件基礎(chǔ)9
2.1Linux基礎(chǔ)9
2.1.1命令格式9
2.1.2用戶(hù)管理10
2.1.3文件操作12
2.1.4目錄操作15
2.1.5文件壓縮和解壓縮命令17
2.1.6安裝和卸載軟件18
2.1.7主機(jī)名更改19
2.2Java語(yǔ)言基礎(chǔ)202.2.1基本數(shù)據(jù)類(lèi)型20
2.2.2主類(lèi)結(jié)構(gòu)21
2.2.3定義類(lèi)24
2.2.4類(lèi)的實(shí)例化26
2.2.5包28
2.2.6常用實(shí)用類(lèi)31
2.3SQL基礎(chǔ)33
2.4在VirtualBox上安裝虛擬機(jī)34
2.4.1Master節(jié)點(diǎn)的安裝34
2.4.2復(fù)制虛擬機(jī)41
2.5習(xí)題45
大數(shù)據(jù)技術(shù)(微課版)目錄第3章Hadoop大數(shù)據(jù)處理架構(gòu)46
3.1Hadoop概述46
3.1.1Hadoop簡(jiǎn)介46
3.1.2Hadoop特性46
3.2Hadoop生態(tài)系統(tǒng)47
3.2.1Hadoop分布式文件系統(tǒng)47
3.2.2MapReduce分布式計(jì)算模型48
3.2.3Hive數(shù)據(jù)倉(cāng)庫(kù)49
3.2.4HBase分布式數(shù)據(jù)庫(kù)49
3.2.5Zookeeper分布式協(xié)調(diào)服務(wù)49
3.2.6Sqoop數(shù)據(jù)導(dǎo)入導(dǎo)出工具50
3.2.7Pig數(shù)據(jù)分析50
3.2.8Mahout數(shù)據(jù)挖掘算法庫(kù)50
3.2.9Flume日志收集工具51
3.2.10Oozie作業(yè)流調(diào)度系統(tǒng)51
3.2.11Spark分布式內(nèi)存計(jì)算51
3.2.12Tez有向無(wú)環(huán)圖計(jì)算52
3.2.13Storm流數(shù)據(jù)處理52
3.3Hadoop的安裝與使用53
3.3.1安裝Hadoop前的準(zhǔn)備工作53
3.3.2下載Hadoop安裝文件55
3.3.3Hadoop單機(jī)模式配置56
3.3.4Hadoop偽分布式模式配置56
3.3.5Hadoop分布式模式配置60
3.4習(xí)題69
第4章Hadoop分布式文件系統(tǒng)70
4.1分布式文件系統(tǒng)的結(jié)構(gòu)70
4.1.1主控服務(wù)器71
4.1.2數(shù)據(jù)服務(wù)器72
4.1.3客戶(hù)端73
4.2HDFS的基本特征73
4.3HDFS存儲(chǔ)架構(gòu)及組件功能74
4.3.1HDFS存儲(chǔ)架構(gòu)74
4.3.2數(shù)據(jù)塊74
4.3.3數(shù)據(jù)節(jié)點(diǎn)75
4.3.4名稱(chēng)節(jié)點(diǎn)76
4.3.5第二名稱(chēng)節(jié)點(diǎn)77
4.3.6心跳消息77
4.3.7客戶(hù)端77
4.4HDFS文件讀寫(xiě)流程77
4.4.1HDFS讀文件流程78
4.4.2HDFS寫(xiě)文件流程79
4.5HDFS的Shell操作80
4.5.1查看命令使用方法80
4.5.2HDFS常用的Shell操作81
4.5.3HDFS管理員命令86
4.5.4HDFS的Java API操作86
4.5.5利用HDFS的Web管理頁(yè)面87
4.6HDFS編程實(shí)踐87
4.6.1安裝eclipse88
4.6.2在eclipse中創(chuàng)建項(xiàng)目89
4.6.3為項(xiàng)目添加需要用到的JAR包90
4.6.4編寫(xiě)Java應(yīng)用程序92
4.6.5編譯運(yùn)行程序94
4.6.6應(yīng)用程序的部署95
4.7習(xí)題97
第5章MapReduce分布式計(jì)算框架99
5.1MapReduce概述99
5.1.1并發(fā)、并行與分布式編程的概念99
5.1.2MapReduce并行編程模型100
5.1.3Map函數(shù)和Reduce函數(shù)100
5.2MapReduce的工作原理101
5.2.1MapReduce的體系架構(gòu)101
5.2.2MapTask的工作原理103
5.2.3ReduceTask的工作原理104
5.3MapReduce編程類(lèi)105
5.3.1InputFormat輸入格式類(lèi)105
5.3.2Mapper基類(lèi)110
5.3.3Combiner合并類(lèi)112
5.3.4Partitioner分區(qū)類(lèi)112
5.3.5Sort排序類(lèi)113
5.3.6Reducer類(lèi)113
5.3.7輸出格式類(lèi)OutputFormat116
5.4MapReduce經(jīng)典案例117
5.4.1WordCount執(zhí)行流程示例117
5.4.2WordCount具體實(shí)現(xiàn)119
5.4.3使用eclipse編譯運(yùn)行詞頻統(tǒng)計(jì)程序124
5.5習(xí)題129
第6章HBase分布式數(shù)據(jù)庫(kù)130
6.1HBase概述130
6.1.1HBase的技術(shù)特點(diǎn)130
6.1.2HBase與傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的區(qū)別130
6.1.3HBase與Hadoop中其他組件的關(guān)系131
6.2HBase系統(tǒng)架構(gòu)和訪問(wèn)接口132
6.2.1HBase系統(tǒng)架構(gòu)132
6.2.2ROOT表和.META.表135
6.2.3HBase訪問(wèn)接口137
6.3HBase數(shù)據(jù)表138
6.3.1HBase數(shù)據(jù)表邏輯視圖138
6.3.2HBase數(shù)據(jù)表物理視圖140
6.3.3HBase數(shù)據(jù)表面向列的存儲(chǔ)141
6.3.4HBase數(shù)據(jù)表的查詢(xún)方式142
6.3.5HBase表結(jié)構(gòu)設(shè)計(jì)143
6.4HBase安裝143
6.4.1下載安裝文件143
6.4.2配置環(huán)境變量143
6.4.3添加用戶(hù)權(quán)限144
6.4.4查看HBase版本信息144
6.5HBase配置145
6.5.1單機(jī)運(yùn)行模式配置145
6.5.2偽分布式運(yùn)行模式配置146
6.6HBase常用Shell命令148
6.6.1基本命令149
6.6.2創(chuàng)建表150
6.6.3插入與更新表中的數(shù)據(jù)152
6.6.4查看表中的數(shù)據(jù)152
6.6.5刪除表中的數(shù)據(jù)154
6.6.6表的啟用/禁用155
6.6.7修改表結(jié)構(gòu)155
6.6.8刪除HBase表156
6.7常用的Java API156
6.7.1HBase數(shù)據(jù)庫(kù)管理API156
6.7.2HBase數(shù)據(jù)庫(kù)表API157
6.7.3HBase數(shù)據(jù)庫(kù)表行列API159
6.8HBase編程161
6.8.1在eclipse中創(chuàng)建項(xiàng)目161
6.8.2添加項(xiàng)目需要用到的JAR包162
6.8.3編寫(xiě)Java應(yīng)用程序163
6.8.4編譯運(yùn)行程序166
6.9習(xí)題167
第7章NoSQL數(shù)據(jù)庫(kù)168
7.1NoSQL數(shù)據(jù)庫(kù)概述168
7.1.1NoSQL數(shù)據(jù)庫(kù)興起的原因168
7.1.2NoSQL數(shù)據(jù)庫(kù)的特點(diǎn)169
7.2“鍵值”數(shù)據(jù)庫(kù)169
7.2.1Redis安裝170
7.2.2Redis數(shù)據(jù)庫(kù)的特點(diǎn)171
7.2.3Redis數(shù)據(jù)庫(kù)的基本數(shù)據(jù)類(lèi)型171
7.3列族數(shù)據(jù)庫(kù)177
7.4文檔數(shù)據(jù)庫(kù)177
7.4.1MongoDB簡(jiǎn)介177
7.4.2MongoDB下載與安裝177
7.4.3MongoDB文檔操作181
7.4.4MongoDB集合操作185
7.4.5MongoDB數(shù)據(jù)庫(kù)操作186
7.4.6MongoDB數(shù)據(jù)類(lèi)型187
7.5圖數(shù)據(jù)庫(kù)188
7.5.1下載和安裝Neo4j189
7.5.2Neo4j的啟動(dòng)和停止189
7.5.3Neo4j的CQL操作191
7.5.4在Neo4j瀏覽器中創(chuàng)建節(jié)點(diǎn)和關(guān)系194
7.6習(xí)題196
第8章Scala基礎(chǔ)編程197
8.1Scala特性197
8.2Scala安裝198
8.2.1用IntelliJ IDEA搭建Scala開(kāi)發(fā)環(huán)境198
8.2.2用scala.msi搭建Scala開(kāi)發(fā)環(huán)境202
8.3Scala數(shù)據(jù)類(lèi)型203
8.4Scala常量和變量204
8.4.1常量204
8.4.2變量205
8.5Scala數(shù)組、列表、集合和映射205
8.5.1定長(zhǎng)數(shù)組206
8.5.2變長(zhǎng)數(shù)組208
8.5.3列表209
8.5.4集合210
8.5.5映射211
8.6Scala控制結(jié)構(gòu)212
8.6.1條件表達(dá)式212
8.6.2if…else選擇結(jié)構(gòu)213
8.6.3編寫(xiě)Scala腳本213
8.6.4循環(huán)214
8.7Scala函數(shù)215
8.7.1函數(shù)定義215
8.7.2匿名函數(shù)216
8.7.3高階函數(shù)217
8.8Scala類(lèi)217
8.9Scala讀寫(xiě)文件218
8.10習(xí)題219
第9章Python基礎(chǔ)編程220
9.1Python安裝220
9.2Python代碼編寫(xiě)方式221
9.2.1用帶圖形界面的Python Shell編寫(xiě)交互式代碼221
9.2.2用帶圖形界面的Python Shell編寫(xiě)程序代碼221
9.3Python對(duì)象和引用222
9.3.1對(duì)象的身份223
9.3.2對(duì)象的類(lèi)型223
9.3.3對(duì)象的值223
9.3.4對(duì)象的引用223
9.4Python基本數(shù)據(jù)類(lèi)型224
9.4.1數(shù)值數(shù)據(jù)類(lèi)型224
9.4.2字符串?dāng)?shù)據(jù)類(lèi)型225
9.4.3列表數(shù)據(jù)類(lèi)型231
9.4.4元組數(shù)據(jù)類(lèi)型236
9.4.5字典數(shù)據(jù)類(lèi)型238
9.4.6集合數(shù)據(jù)類(lèi)型242
9.4.7Python數(shù)據(jù)類(lèi)型之間的轉(zhuǎn)換244
9.5Python中的數(shù)據(jù)輸入244
9.6Python中的數(shù)據(jù)輸出245
9.6.1表達(dá)式語(yǔ)句輸出245
9.6.2print函數(shù)輸出245
9.6.3字符串對(duì)象的format方法的格式化輸出247
9.7Python中文件的基本操作248
9.8選擇結(jié)構(gòu)249
9.8.1選擇語(yǔ)句249
9.8.2條件表達(dá)式250
9.9循環(huán)結(jié)構(gòu)250
9.9.1while循環(huán)250
9.9.2for循環(huán)251
9.9.3循環(huán)中的break、continue和else252
9.10函數(shù)252
9.10.1定義函數(shù)252
9.10.2函數(shù)調(diào)用253
9.11類(lèi)255
9.11.1定義類(lèi)255
9.11.2創(chuàng)建類(lèi)的對(duì)象256
9.12習(xí)題257
第10章Spark分布式內(nèi)存計(jì)算258
10.1Spark概述258
10.1.1Spark產(chǎn)生背景258
10.1.2Spark的優(yōu)點(diǎn)259
10.1.3Spark應(yīng)用場(chǎng)景259
10.1.4Spark生態(tài)系統(tǒng)261
10.2Spark的安裝及配置261
10.2.1Spark安裝的基礎(chǔ)環(huán)境261
10.2.2下載安裝文件262
10.2.3單機(jī)模式配置262
10.2.4偽分布式模式配置263
10.3使用Spark Shell編寫(xiě)Scala代碼264
10.3.1啟動(dòng)Spark Shell265
10.3.2退出Spark Shell266
10.4Spark核心數(shù)據(jù)結(jié)構(gòu)RDD266
10.4.1RDD創(chuàng)建266
10.4.2RDD操作268
10.4.3RDD屬性275
10.4.4RDD持久化277
10.5Spark運(yùn)行機(jī)制278
10.5.1Spark基本概念278
10.5.2Spark運(yùn)行架構(gòu)281
10.5.3Spark應(yīng)用執(zhí)行基本流程282
10.6使用Scala語(yǔ)言編寫(xiě)Spark應(yīng)用程序283
10.6.1安裝sbt283
10.6.2編寫(xiě)詞頻統(tǒng)計(jì)Scala應(yīng)用程序284
10.6.3用sbt打包Scala應(yīng)用程序285
10.6.4通過(guò)sparksubmit運(yùn)行程序286
10.7使用Python語(yǔ)言編寫(xiě)Spark應(yīng)用程序286
10.7.1SparkContext287
10.7.2pyspark對(duì)RDD的轉(zhuǎn)換操作289
10.7.3pyspark對(duì)RDD的行動(dòng)操作290
10.8習(xí)題292
第11章Spark SQL編程293
11.1Spark SQL概述293
11.2Spark SQL與Shell交互293
11.3DataFrame對(duì)象的創(chuàng)建294
11.3.1使用parquet格式文件創(chuàng)建DataFrame294
11.3.2使用JSON數(shù)據(jù)文件創(chuàng)建DataFrame295
11.3.3使用RDD創(chuàng)建DataFrame296
11.4DataFrame對(duì)象上的常用操作296
11.4.1內(nèi)容查看297
11.4.2過(guò)濾299
11.4.3分組與聚合299
11.4.4獲取所有數(shù)據(jù)到數(shù)組299
11.4.5獲取所有數(shù)據(jù)到列表300
11.4.6獲取指定字段的統(tǒng)計(jì)信息300
11.5習(xí)題300
第12章數(shù)據(jù)可視化301
12.1Tableau繪圖301
12.1.1Tableau的主要特性301
12.1.2Tableau工作表工作區(qū)302
12.1.3Tableau儀表板工作區(qū)307
12.1.4Tableau故事工作區(qū)308
12.1.5Tableau菜單欄310
12.1.6Tableau可視化與數(shù)據(jù)分析舉例311
12.2ECharts繪圖312
12.2.1ECharts的特點(diǎn)312
12.2.2ECharts環(huán)境搭建313
12.2.3使用Dreamweaver 8創(chuàng)建網(wǎng)頁(yè)313
12.2.4使用Echarts繪制折線(xiàn)圖314
12.2.5使用Echarts繪制柱狀圖318
12.2.6使用Echarts繪制餅圖320
12.2.7使用Echarts繪制雷達(dá)圖322
12.3PyeCharts繪圖324
12.3.1繪制柱狀圖325
12.3.2繪制折線(xiàn)圖327
12.3.3繪制餅圖329
12.3.4繪制雷達(dá)圖330
12.3.5繪制漏斗圖331
12.3.6繪制3D立體圖332
12.3.7繪制詞云圖333
12.4習(xí)題334
參考文獻(xiàn)335