注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)數(shù)據(jù)庫大數(shù)據(jù)技術(shù)入門(第2版)

大數(shù)據(jù)技術(shù)入門(第2版)

大數(shù)據(jù)技術(shù)入門(第2版)

定 價:¥79.00

作 者: 楊正洪 著
出版社: 清華大學(xué)出版社
叢編項:
標 簽: 暫缺

ISBN: 9787302547969 出版時間: 2020-02-01 包裝: 平裝
開本: 16開 頁數(shù): 387 字數(shù):  

內(nèi)容簡介

  目前國內(nèi)大數(shù)據(jù)市場繼續(xù)保持高速的發(fā)展態(tài)勢,作者在與地方政府、證券金融公司的項目合作中發(fā)現(xiàn),他們對大數(shù)據(jù)技術(shù)很感興趣,并希望從大數(shù)據(jù)技術(shù)、采集、存儲、訪問、安全、分析與開發(fā)等方面得到指導(dǎo)和幫助。因此編寫了這本大數(shù)據(jù)技術(shù)的入門書。 本書共12章,以Hadoop和Spark框架為線索,比較全面地介紹了Hadoop技術(shù)、Spark技術(shù)、大數(shù)據(jù)存儲、大數(shù)據(jù)訪問、大數(shù)據(jù)采集、大數(shù)據(jù)管理、大數(shù)據(jù)分析、大數(shù)據(jù)開發(fā)、大數(shù)據(jù)環(huán)境自動化部署(Docker和K8s)等內(nèi)容。 本書適合大數(shù)據(jù)技術(shù)初學(xué)者,政府、金融機構(gòu)的大數(shù)據(jù)應(yīng)用決策和技術(shù)人員、IT經(jīng)理、CTO、CIO等快速學(xué)習(xí)大數(shù)據(jù)技術(shù)。本書也可以作為高等院校和培訓(xùn)學(xué)校相關(guān)專業(yè)的培訓(xùn)教材。

作者簡介

  楊正洪,畢業(yè)于美國State University of New York at Stony Brook,在美國硅谷從事AI和大數(shù)據(jù)相關(guān)研發(fā)工作 10 多年,華中科技大學(xué)和中國地質(zhì)大學(xué)客座教授,湖北省 2013 年海外引進人才,擁有多項國家專利。參與了大數(shù)據(jù)和人工智能的國家標準的制定,在 2016 年參與了公安部主導(dǎo)的“信息安全技術(shù):大數(shù)據(jù)平臺安全管理產(chǎn)品安全技術(shù)要求”的國家標準制定。作者還是中關(guān)村海外智庫專家顧問和住建部中規(guī)院專家顧問,擔(dān)任了在美上市公司 CTO、北京某國企 CIO 和上海某國企高級副總裁等職。多年從事人工智能與大數(shù)據(jù)技術(shù)的工作,出版了《智慧城市》等多本書籍。

圖書目錄

目 錄
第1章 大數(shù)據(jù)時代 1
1.1 什么是大數(shù)據(jù) 1
1.1.1 四大特征 2
1.1.2 數(shù)據(jù)監(jiān)管(Data Governance) 3
1.1.3 數(shù)據(jù)質(zhì)量 4
1.1.4 大數(shù)據(jù)分析 4
1.1.5 大數(shù)據(jù)平臺架構(gòu) 5
1.2 大數(shù)據(jù)與云計算的關(guān)系 6
1.2.1 云計算產(chǎn)品概述 6
1.2.2 虛擬服務(wù)器 7
1.2.3 云存儲 11
1.3 Hadoop和云平臺的應(yīng)用實例 12
1.3.1 云平臺層面配置 12
1.3.2 大數(shù)據(jù)平臺層面配置 14
1.4 數(shù)據(jù)湖(Data Lake) 16
1.5 企業(yè)如何走向大數(shù)據(jù) 17
1.5.1 業(yè)務(wù)價值維度 18
1.5.2 數(shù)據(jù)維度 18
1.5.3 現(xiàn)有IT環(huán)境和成本維度 19
1.5.4 數(shù)據(jù)治理維度 20
第2章 大數(shù)據(jù)軟件框架 21
2.1 Hadoop框架 21
2.1.1 HDFS(分布式文件系統(tǒng)) 22
2.1.2 MapReduce(分布式計算框架) 23
2.1.3 YARN(集群資源管理器) 28
2.2 Spark(內(nèi)存計算框架) 30
2.2.1 Spark SQL 31
2.2.2 Spark Streaming 32
2.3 實時流處理框架 34
2.4 云端消息隊列 34
2.5 框架的選擇 35
2.6 Hadoop發(fā)行版 36
2.7 Mac上安裝Hadoop 37
2.7.1 在Mac上安裝Hadoop 37
2.7.2 安裝MySQL和Hive 41
2.8 Linux上安裝Hadoop 44
2.8.1 配置Java環(huán)境 45
2.8.2 安裝ntp和Python 47
2.8.3 安裝和配置openssl 47
2.8.4 配置SSH無密碼訪問 47
2.8.5 安裝Ambari和HDP 48
2.8.6 啟動和停止服務(wù) 52
2.9 AWS云平臺上安裝Hadoop 54
第3章 大數(shù)據(jù)集群 57
3.1 集群實例分析 57
3.2 YARN 67
3.2.1 架構(gòu)組成 68
3.2.2 YARN執(zhí)行流程 71
3.3 資源的調(diào)度器 75
3.3.1 Capacity Scheduler 76
3.3.2 Fair Scheduler 78
3.3.3 資源調(diào)度實例分析 81
3.3.4 內(nèi)存和CPU資源調(diào)度 84
3.4 深入研究Resource Manager 88
3.5 集群配置文件總覽 91
3.5.1 yarn-site.xml 91
3.5.2 mapred-site.xml 94
3.6 自動伸縮(Auto Scaling)集群 97
3.7 遷移Hadoop集群 97
3.8 增加Instance 99
第4章 大數(shù)據(jù)存儲:文件系統(tǒng)和云存儲 100
4.1 HDFS shell命令 100
4.2 配置HDFS 102
4.2.1 配置文件 102
4.2.2 多節(jié)點配置 103
4.3 HDFS API編程 104
4.3.1 讀取HDFS文件內(nèi)容 105
4.3.2 寫HDFS文件內(nèi)容 108
4.3.3 WebHDFS 108
4.4 HDFS API總結(jié) 110
4.4.1 Configuration類 110
4.4.2 FileSystem抽象類 111
4.4.3 Path類 111
4.4.4 FSDataInputStream類 111
4.4.5 FSDataOutputStream類 112
4.4.6 IOUtils類 112
4.4.7 FileStatus類 112
4.4.8 FsShell類 112
4.4.9 ChecksumFileSystem抽象類 112
4.4.10 其他的HDFS API實例 113
4.4.11 綜合實例 115
4.5 HDFS文件格式 118
4.5.1 SequenceFile 118
4.5.2 TextFile(文本格式) 118
4.5.3 RCFile 118
4.5.4 Avro 120
4.6 云存儲S3 120
4.6.1 S3基本概念 121
4.6.2 S3管理控制臺 122
4.6.3 S3 CLI 126
4.6.4 S3 SDK 127
4.6.5 分區(qū) 129
4.6.6 與EBS的比較 129
4.6.7 與Glacier的比較 129
第5章 大數(shù)據(jù)存儲:數(shù)據(jù)庫 130
5.1 NoSQL 130
5.2 HBase概述 131
5.2.1 HBase表結(jié)構(gòu) 132
5.2.2 HBase系統(tǒng)架構(gòu) 135
5.2.3 啟動并操作HBase數(shù)據(jù)庫 136
5.2.4 HBase Shell工具 139
5.3 HBase編程 142
5.3.1 增刪改查API 142
5.3.2 過濾器 146
5.3.3 計數(shù)器 149
5.3.4 原子操作 149
5.3.5 管理API 149
5.4 其他NoSQL數(shù)據(jù)庫 151
5.4.1 Cassandra 151
5.4.2 Impala 151
5.4.3 DynamoDB 151
5.4.4 Redshift 151
5.5 云數(shù)據(jù)庫 152
5.5.1 什么是RDS 152
5.5.2 創(chuàng)建云數(shù)據(jù)庫 152
5.5.3 查看云數(shù)據(jù)庫信息 156
5.5.4 何時使用云端數(shù)據(jù)庫 159
第6章 大數(shù)據(jù)訪問:SQL引擎層 160
6.1 Phoenix 161
6.1.1 安裝和配置Phoenix 161
6.1.2 在Eclipse上開發(fā)Phoenix程序 165
6.1.3 Phoenix SQL工具 169
6.1.4 Phoenix SQL語法 170
6.2 Hive 171
6.2.1 Hive架構(gòu) 172
6.2.2 安裝Hive 173
6.2.3 Hive CLI 175
6.2.4 Hive數(shù)據(jù)類型 175
6.2.5 Hive文件格式 177
6.2.6 Hive表定義 179
6.2.7 Hive加載數(shù)據(jù) 183
6.2.8 Hive查詢數(shù)據(jù) 184
6.2.9 Hive UDF 186
6.2.10 Hive視圖 188
6.2.11 HiveServer2 189
6.2.12 hive-site.xml需要的配置 195
6.2.13 HBase集成 200
6.2.14 XML和JSON數(shù)據(jù) 200
6.2.15 使用TEZ 201
6.2.16 Hive MetaStore 203
6.2.17 綜合示例 204
6.3 Pig 206
6.3.1 Pig語法 207
6.3.2 Pig和Hive的使用場景之比較 210
6.4 ElasticSearch(全文搜索引擎) 211
6.4.1 全文索引的基礎(chǔ)知識 211
6.4.2 安裝和配置ElasticSearch 213
6.4.3 ElasticSearch API 215
6.5 Presto 217
第7章 大數(shù)據(jù)采集和導(dǎo)入 218
7.1 Flume 220
7.1.1 Flume架構(gòu) 220
7.1.2 Flume事件 221
7.1.3 Flume源 221
7.1.4 Flume攔截器(Interceptor) 222
7.1.5 Flume通道選擇器(Channel Selector) 223
7.1.6 Flume通道 224
7.1.7 Flume接收器 225
7.1.8 負載均衡和單點失敗 226
7.1.9 Flume監(jiān)控管理 227
7.1.10 Flume實例 227
7.2 Kafka 229
7.2.1 Kafka架構(gòu) 229
7.2.2 Kafka與JMS的異同 230
7.2.3 Kafka性能考慮 231
7.2.4 消息傳送機制 231
7.2.5 Kafka和Flume的比較 232
7.3 Sqoop 232
7.3.1 從數(shù)據(jù)庫導(dǎo)入HDFS 233
7.3.2 增量導(dǎo)入 235
7.3.3 將數(shù)據(jù)從Oracle導(dǎo)入Hive 235
7.3.4 將數(shù)據(jù)從Oracle導(dǎo)入HBase 235
7.3.5 導(dǎo)入所有表 236
7.3.6 從HDFS導(dǎo)出數(shù)據(jù) 236
7.3.7 數(shù)據(jù)驗證 237
7.3.8 其他Sqoop功能 237
7.4 Storm 238
7.4.1 Storm基本概念 238
7.4.2 Spout 240
7.4.3 Bolt 241
7.4.4 拓撲結(jié)構(gòu) 243
7.4.5 Storm總結(jié) 244
7.5 Amazon Kinesis 245
7.6 其他工具 246
7.6.1 Embulk 246
7.6.2 Fluentd 247
第8章 大數(shù)據(jù)安全管控 250
8.1 數(shù)據(jù)主權(quán)和合規(guī)性 250
8.2 云端安全 251
8.2.1 身份驗證和訪問權(quán)限 251
8.2.2 角色 253
8.2.3 虛擬網(wǎng)絡(luò) 254
8.2.4 安全組 255
8.3 云端監(jiān)控 256
8.3.1 跟蹤和審計 256
8.3.2 監(jiān)控 257
8.3.3 基于Datadog的監(jiān)控 259
8.4 云端備份和恢復(fù) 262
8.5 大數(shù)據(jù)安全 262
8.5.1 Kerberos 263
8.5.2 Apache Ranger 263
8.5.3 應(yīng)用端安全 267

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號