注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡數(shù)據庫大數(shù)據技術入門(第2版)

大數(shù)據技術入門(第2版)

大數(shù)據技術入門(第2版)

定 價:¥79.00

作 者: 楊正洪 著
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787302547969 出版時間: 2020-02-01 包裝: 平裝
開本: 16開 頁數(shù): 387 字數(shù):  

內容簡介

  目前國內大數(shù)據市場繼續(xù)保持高速的發(fā)展態(tài)勢,作者在與地方政府、證券金融公司的項目合作中發(fā)現(xiàn),他們對大數(shù)據技術很感興趣,并希望從大數(shù)據技術、采集、存儲、訪問、安全、分析與開發(fā)等方面得到指導和幫助。因此編寫了這本大數(shù)據技術的入門書。 本書共12章,以Hadoop和Spark框架為線索,比較全面地介紹了Hadoop技術、Spark技術、大數(shù)據存儲、大數(shù)據訪問、大數(shù)據采集、大數(shù)據管理、大數(shù)據分析、大數(shù)據開發(fā)、大數(shù)據環(huán)境自動化部署(Docker和K8s)等內容。 本書適合大數(shù)據技術初學者,政府、金融機構的大數(shù)據應用決策和技術人員、IT經理、CTO、CIO等快速學習大數(shù)據技術。本書也可以作為高等院校和培訓學校相關專業(yè)的培訓教材。

作者簡介

  楊正洪,畢業(yè)于美國State University of New York at Stony Brook,在美國硅谷從事AI和大數(shù)據相關研發(fā)工作 10 多年,華中科技大學和中國地質大學客座教授,湖北省 2013 年海外引進人才,擁有多項國家專利。參與了大數(shù)據和人工智能的國家標準的制定,在 2016 年參與了公安部主導的“信息安全技術:大數(shù)據平臺安全管理產品安全技術要求”的國家標準制定。作者還是中關村海外智庫專家顧問和住建部中規(guī)院專家顧問,擔任了在美上市公司 CTO、北京某國企 CIO 和上海某國企高級副總裁等職。多年從事人工智能與大數(shù)據技術的工作,出版了《智慧城市》等多本書籍。

圖書目錄

目 錄
第1章 大數(shù)據時代 1
1.1 什么是大數(shù)據 1
1.1.1 四大特征 2
1.1.2 數(shù)據監(jiān)管(Data Governance) 3
1.1.3 數(shù)據質量 4
1.1.4 大數(shù)據分析 4
1.1.5 大數(shù)據平臺架構 5
1.2 大數(shù)據與云計算的關系 6
1.2.1 云計算產品概述 6
1.2.2 虛擬服務器 7
1.2.3 云存儲 11
1.3 Hadoop和云平臺的應用實例 12
1.3.1 云平臺層面配置 12
1.3.2 大數(shù)據平臺層面配置 14
1.4 數(shù)據湖(Data Lake) 16
1.5 企業(yè)如何走向大數(shù)據 17
1.5.1 業(yè)務價值維度 18
1.5.2 數(shù)據維度 18
1.5.3 現(xiàn)有IT環(huán)境和成本維度 19
1.5.4 數(shù)據治理維度 20
第2章 大數(shù)據軟件框架 21
2.1 Hadoop框架 21
2.1.1 HDFS(分布式文件系統(tǒng)) 22
2.1.2 MapReduce(分布式計算框架) 23
2.1.3 YARN(集群資源管理器) 28
2.2 Spark(內存計算框架) 30
2.2.1 Spark SQL 31
2.2.2 Spark Streaming 32
2.3 實時流處理框架 34
2.4 云端消息隊列 34
2.5 框架的選擇 35
2.6 Hadoop發(fā)行版 36
2.7 Mac上安裝Hadoop 37
2.7.1 在Mac上安裝Hadoop 37
2.7.2 安裝MySQL和Hive 41
2.8 Linux上安裝Hadoop 44
2.8.1 配置Java環(huán)境 45
2.8.2 安裝ntp和Python 47
2.8.3 安裝和配置openssl 47
2.8.4 配置SSH無密碼訪問 47
2.8.5 安裝Ambari和HDP 48
2.8.6 啟動和停止服務 52
2.9 AWS云平臺上安裝Hadoop 54
第3章 大數(shù)據集群 57
3.1 集群實例分析 57
3.2 YARN 67
3.2.1 架構組成 68
3.2.2 YARN執(zhí)行流程 71
3.3 資源的調度器 75
3.3.1 Capacity Scheduler 76
3.3.2 Fair Scheduler 78
3.3.3 資源調度實例分析 81
3.3.4 內存和CPU資源調度 84
3.4 深入研究Resource Manager 88
3.5 集群配置文件總覽 91
3.5.1 yarn-site.xml 91
3.5.2 mapred-site.xml 94
3.6 自動伸縮(Auto Scaling)集群 97
3.7 遷移Hadoop集群 97
3.8 增加Instance 99
第4章 大數(shù)據存儲:文件系統(tǒng)和云存儲 100
4.1 HDFS shell命令 100
4.2 配置HDFS 102
4.2.1 配置文件 102
4.2.2 多節(jié)點配置 103
4.3 HDFS API編程 104
4.3.1 讀取HDFS文件內容 105
4.3.2 寫HDFS文件內容 108
4.3.3 WebHDFS 108
4.4 HDFS API總結 110
4.4.1 Configuration類 110
4.4.2 FileSystem抽象類 111
4.4.3 Path類 111
4.4.4 FSDataInputStream類 111
4.4.5 FSDataOutputStream類 112
4.4.6 IOUtils類 112
4.4.7 FileStatus類 112
4.4.8 FsShell類 112
4.4.9 ChecksumFileSystem抽象類 112
4.4.10 其他的HDFS API實例 113
4.4.11 綜合實例 115
4.5 HDFS文件格式 118
4.5.1 SequenceFile 118
4.5.2 TextFile(文本格式) 118
4.5.3 RCFile 118
4.5.4 Avro 120
4.6 云存儲S3 120
4.6.1 S3基本概念 121
4.6.2 S3管理控制臺 122
4.6.3 S3 CLI 126
4.6.4 S3 SDK 127
4.6.5 分區(qū) 129
4.6.6 與EBS的比較 129
4.6.7 與Glacier的比較 129
第5章 大數(shù)據存儲:數(shù)據庫 130
5.1 NoSQL 130
5.2 HBase概述 131
5.2.1 HBase表結構 132
5.2.2 HBase系統(tǒng)架構 135
5.2.3 啟動并操作HBase數(shù)據庫 136
5.2.4 HBase Shell工具 139
5.3 HBase編程 142
5.3.1 增刪改查API 142
5.3.2 過濾器 146
5.3.3 計數(shù)器 149
5.3.4 原子操作 149
5.3.5 管理API 149
5.4 其他NoSQL數(shù)據庫 151
5.4.1 Cassandra 151
5.4.2 Impala 151
5.4.3 DynamoDB 151
5.4.4 Redshift 151
5.5 云數(shù)據庫 152
5.5.1 什么是RDS 152
5.5.2 創(chuàng)建云數(shù)據庫 152
5.5.3 查看云數(shù)據庫信息 156
5.5.4 何時使用云端數(shù)據庫 159
第6章 大數(shù)據訪問:SQL引擎層 160
6.1 Phoenix 161
6.1.1 安裝和配置Phoenix 161
6.1.2 在Eclipse上開發(fā)Phoenix程序 165
6.1.3 Phoenix SQL工具 169
6.1.4 Phoenix SQL語法 170
6.2 Hive 171
6.2.1 Hive架構 172
6.2.2 安裝Hive 173
6.2.3 Hive CLI 175
6.2.4 Hive數(shù)據類型 175
6.2.5 Hive文件格式 177
6.2.6 Hive表定義 179
6.2.7 Hive加載數(shù)據 183
6.2.8 Hive查詢數(shù)據 184
6.2.9 Hive UDF 186
6.2.10 Hive視圖 188
6.2.11 HiveServer2 189
6.2.12 hive-site.xml需要的配置 195
6.2.13 HBase集成 200
6.2.14 XML和JSON數(shù)據 200
6.2.15 使用TEZ 201
6.2.16 Hive MetaStore 203
6.2.17 綜合示例 204
6.3 Pig 206
6.3.1 Pig語法 207
6.3.2 Pig和Hive的使用場景之比較 210
6.4 ElasticSearch(全文搜索引擎) 211
6.4.1 全文索引的基礎知識 211
6.4.2 安裝和配置ElasticSearch 213
6.4.3 ElasticSearch API 215
6.5 Presto 217
第7章 大數(shù)據采集和導入 218
7.1 Flume 220
7.1.1 Flume架構 220
7.1.2 Flume事件 221
7.1.3 Flume源 221
7.1.4 Flume攔截器(Interceptor) 222
7.1.5 Flume通道選擇器(Channel Selector) 223
7.1.6 Flume通道 224
7.1.7 Flume接收器 225
7.1.8 負載均衡和單點失敗 226
7.1.9 Flume監(jiān)控管理 227
7.1.10 Flume實例 227
7.2 Kafka 229
7.2.1 Kafka架構 229
7.2.2 Kafka與JMS的異同 230
7.2.3 Kafka性能考慮 231
7.2.4 消息傳送機制 231
7.2.5 Kafka和Flume的比較 232
7.3 Sqoop 232
7.3.1 從數(shù)據庫導入HDFS 233
7.3.2 增量導入 235
7.3.3 將數(shù)據從Oracle導入Hive 235
7.3.4 將數(shù)據從Oracle導入HBase 235
7.3.5 導入所有表 236
7.3.6 從HDFS導出數(shù)據 236
7.3.7 數(shù)據驗證 237
7.3.8 其他Sqoop功能 237
7.4 Storm 238
7.4.1 Storm基本概念 238
7.4.2 Spout 240
7.4.3 Bolt 241
7.4.4 拓撲結構 243
7.4.5 Storm總結 244
7.5 Amazon Kinesis 245
7.6 其他工具 246
7.6.1 Embulk 246
7.6.2 Fluentd 247
第8章 大數(shù)據安全管控 250
8.1 數(shù)據主權和合規(guī)性 250
8.2 云端安全 251
8.2.1 身份驗證和訪問權限 251
8.2.2 角色 253
8.2.3 虛擬網絡 254
8.2.4 安全組 255
8.3 云端監(jiān)控 256
8.3.1 跟蹤和審計 256
8.3.2 監(jiān)控 257
8.3.3 基于Datadog的監(jiān)控 259
8.4 云端備份和恢復 262
8.5 大數(shù)據安全 262
8.5.1 Kerberos 263
8.5.2 Apache Ranger 263
8.5.3 應用端安全 267

本目錄推薦

掃描二維碼
Copyright ? 讀書網 ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號