注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件大數(shù)據(jù)技術(shù)入門

大數(shù)據(jù)技術(shù)入門

大數(shù)據(jù)技術(shù)入門

定 價(jià):¥59.00

作 者: 楊正洪
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787302442837 出版時(shí)間: 2016-07-01 包裝:
開本: 16開 頁(yè)數(shù): 292 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  從2015年開始,國(guó)內(nèi)大數(shù)據(jù)市場(chǎng)繼續(xù)保持高速的發(fā)展態(tài)勢(shì),作者在與地方政府、證券金融公司的項(xiàng)目合作中發(fā)現(xiàn),他們對(duì)大數(shù)據(jù)技術(shù)很感興趣,并希望從大數(shù)據(jù)技術(shù)、大數(shù)據(jù)采集、管理、分析以及可視化等方面得到指導(dǎo)和應(yīng)用幫助。因此編寫了這本大數(shù)據(jù)技術(shù)的快速入門書。本書共12章,以Hadoop和Spark框架為線索,比較全面地介紹了Hadoop技術(shù)、Spark技術(shù)、大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)訪問(wèn)、大數(shù)據(jù)采集、大數(shù)據(jù)管理、大數(shù)據(jù)分析等內(nèi)容。最后還給出兩個(gè)案例:環(huán)保大數(shù)據(jù)和公安大數(shù)據(jù),供讀者參考。本書適合大數(shù)據(jù)技術(shù)初學(xué)者,政府、金融機(jī)構(gòu)的大數(shù)據(jù)應(yīng)用決策和技術(shù)人員,IT經(jīng)理,CTO,CIO等快速學(xué)習(xí)大數(shù)據(jù)技術(shù)。本書也可以作為高等院校和培訓(xùn)學(xué)校相關(guān)專業(yè)的培訓(xùn)教材。

作者簡(jiǎn)介

  楊正洪,是國(guó)內(nèi)知名大數(shù)據(jù)專家,畢業(yè)于美國(guó)State University of New York at Stony Brook,在IBM公司從事大數(shù)據(jù)相關(guān)研發(fā)工作12年多。從2003~2013年,楊正洪在美國(guó)加州的IBM硅谷實(shí)驗(yàn)室(IBM Silicon Valley Lab)負(fù)責(zé)IBM大數(shù)據(jù)平臺(tái)的設(shè)計(jì)、研發(fā)和實(shí)施,主持了保險(xiǎn)行業(yè)、金融行業(yè)、政府行業(yè)的大數(shù)據(jù)系統(tǒng)的架構(gòu)設(shè)計(jì)和實(shí)施。楊正洪是華中科技大學(xué)和中國(guó)地質(zhì)大學(xué)客座教授,擁有國(guó)家專利,是湖北省2013年海外引進(jìn)人才。受武漢市政府邀請(qǐng),楊正洪于2012年12月發(fā)起成立武漢市云升科技發(fā)展有限公司,并獲得東湖高新技術(shù)開發(fā)區(qū)辦公場(chǎng)所和資金支持。目前公司在浙江和上海分別有全資子公司,在美國(guó)硅谷設(shè)有研發(fā)中心。公司的核心產(chǎn)品是大數(shù)據(jù)管理平臺(tái)EasyDoop,并以EasyDoop為基礎(chǔ)研發(fā)了公安大數(shù)據(jù)產(chǎn)品和環(huán)保大數(shù)據(jù)產(chǎn)品。這些產(chǎn)品在公安和環(huán)保行業(yè)得到成功實(shí)施,三次被中央電視臺(tái)新聞聯(lián)播節(jié)目播報(bào),省部長(zhǎng)級(jí)政府領(lǐng)導(dǎo)親自考察,并給予了很高的評(píng)價(jià)。楊正洪參與了多項(xiàng)大數(shù)據(jù)相關(guān)標(biāo)準(zhǔn)的制定工作,曾受邀參與了公安部主導(dǎo)的“信息安全技術(shù)-大數(shù)據(jù)平臺(tái)安全管理產(chǎn)品安全技術(shù)要求”的國(guó)家標(biāo)準(zhǔn)制定。

圖書目錄

第1章  大數(shù)據(jù)時(shí)代 1
1.1  什么是大數(shù)據(jù) 1
1.2  大數(shù)據(jù)的四大特征 2
1.3  大數(shù)據(jù)的商用化 3
1.4  大數(shù)據(jù)分析 5
1.5  大數(shù)據(jù)與云計(jì)算的關(guān)系 5
1.6  大數(shù)據(jù)的國(guó)家戰(zhàn)略 6
1.6.1  政府大數(shù)據(jù)的價(jià)值 7
1.6.2  政府大數(shù)據(jù)的應(yīng)用場(chǎng)景 8
1.7  企業(yè)如何迎接大數(shù)據(jù) 8
1.7.1  評(píng)估大數(shù)據(jù)方案的維度 9
1.7.2  業(yè)務(wù)價(jià)值維度 10
1.7.3  數(shù)據(jù)維度 11
1.7.4  現(xiàn)有IT環(huán)境和成本維度 12
1.7.5  數(shù)據(jù)治理維度 13
1.8  大數(shù)據(jù)產(chǎn)業(yè)鏈分析 14
1.8.1  技術(shù)分析 14
1.8.2  角色分析 15
1.8.3  大數(shù)據(jù)運(yùn)營(yíng) 17
1.9  大數(shù)據(jù)交易 18
1.10  大數(shù)據(jù)之我見 19
第2章  大數(shù)據(jù)軟件框架 20
2.1  Hadoop框架 20
2.1.1  HDFS(分布式文件系統(tǒng)) 21
2.1.2  MapReduce(分布式計(jì)算框架) 22
2.1.3  YARN(集群資源管理器) 25
2.1.4  Zookeeper(分布式協(xié)作服務(wù)) 28
2.1.5  Ambari(管理工具) 29
2.2  Spark(內(nèi)存計(jì)算框架) 29
2.2.1  Scala 31
2.2.2  Spark SQL 32
2.2.3  Spark Streaming 33
2.3  實(shí)時(shí)流處理框架 34
2.4  框架的選擇 35
第3章  安裝與配置大數(shù)據(jù)軟件 36
3.1  Hadoop發(fā)行版 36
3.1.1  Cloudera 36
3.1.2  HortonWorks 37
3.1.3  MapR 38
3.2  安裝Hadoop前的準(zhǔn)備工作 39
3.2.1  Linux主機(jī)配置 40
3.2.2  配置Java環(huán)境 41
3.2.3  安裝NTP和python 42
3.2.4  安裝和配置openssl 43
3.2.5  啟動(dòng)和停止特定服務(wù) 44
3.2.6  配置SSH無(wú)密碼訪問(wèn) 44
3.3  安裝Ambari 和 HDP 45
3.3.1  配置安裝包文件 45
3.3.2  安裝 Ambari 46
3.3.3  安裝和配置HDP 47
3.4  初識(shí)Hadoop 49
3.4.1  啟動(dòng)和停止服務(wù) 50
3.4.2  使用HDFS 51
3.5  Hadoop的特性 52
第4章  大數(shù)據(jù)存儲(chǔ):文件系統(tǒng) 53
4.1  HDFS shell命令 53
4.2  HDFS配置文件 55
4.3  HDFS API編程 57
4.3.1  讀取HDFS文件內(nèi)容 57
4.3.2  寫HDFS文件內(nèi)容 60
4.4  HDFS API總結(jié) 62
4.4.1  Configuration類 62
4.4.2  FileSystem抽象類 62
4.4.3  Path類 63
4.4.4  FSDataInputStream類 63
4.4.5  FSDataOutputStream類 63
4.4.6  IOUtils類 63
4.4.7  FileStatus類 64
4.4.8  FsShell類 64
4.4.9  ChecksumFileSystem抽象類 64
4.4.10  其他HDFS API實(shí)例 64
4.4.11  綜合實(shí)例 67
4.5  HDFS文件格式 69
4.5.1  SequenceFile 70
4.5.2  TextFile(文本格式) 70
4.5.3  RCFile 70
4.5.4  Avro 72
第5章  大數(shù)據(jù)存儲(chǔ):數(shù)據(jù)庫(kù) 73
5.1  NoSQL 73
5.2  HBase管理 74
5.2.1  HBase表結(jié)構(gòu) 75
5.2.2  HBase系統(tǒng)架構(gòu) 78
5.2.3  啟動(dòng)并操作HBase數(shù)據(jù)庫(kù) 80
5.2.4  HBase Shell工具 82
5.3  HBase編程 86
5.3.1  增刪改查API 86
5.3.2  過(guò)濾器 90
5.3.3  計(jì)數(shù)器 93
5.3.4  原子操作 94
5.3.5  管理API 94
5.4  其他NoSQL數(shù)據(jù)庫(kù) 95
第6章  大數(shù)據(jù)訪問(wèn):SQL引擎層 97
6.1  Phoenix 97
6.1.1  安裝和配置Phoenix 98
6.1.2  在eclipse上開發(fā)phoenix程序 104
6.1.3  Phoenix SQL工具 108
6.1.4  Phoenix SQL 語(yǔ)法 109
6.2  Hive 111
6.2.1  Hive架構(gòu) 111
6.2.2  安裝Hive 112
6.2.3  Hive和MySQL的配置 114
6.2.4  Hive CLI 115
6.2.5  Hive數(shù)據(jù)類型 115
6.2.6  HiveQL DDL 119
6.2.7  HiveQL DML 121
6.2.8  Hive編程 123
6.2.9  HBase集成 125
6.2.10  XML和JSON數(shù)據(jù) 127
6.2.11  使用Tez 128
6.3  Pig 130
6.3.1  Pig語(yǔ)法 131
6.3.2  Pig和Hive的使用場(chǎng)景比較 134
6.4  ElasticSearch(全文搜索引擎) 136
6.4.1  全文索引的基礎(chǔ)知識(shí) 136
6.4.2  安裝和配置ES 138
6.4.3  ES API 140
第7章  大數(shù)據(jù)采集和導(dǎo)入 143
7.1  Flume 145
7.1.1  Flume架構(gòu) 145
7.1.2  Flume事件 146
7.1.3  Flume源 147
7.1.4  Flume攔截器(Interceptor) 148
7.1.5  Flume通道選擇器(Channel Selector) 149
7.1.6  Flume通道 150
7.1.7  Flume接收器 151
7.1.8  負(fù)載均衡和單點(diǎn)失敗 153
7.1.9  Flume監(jiān)控管理 153
7.1.10  Flume實(shí)例 154
7.2  Kafka 155
7.2.1  Kafka架構(gòu) 156
7.2.2  Kafka與JMS的異同 158
7.2.3  Kafka性能考慮 158
7.2.4  消息傳送機(jī)制 159
7.2.5  Kafka和Flume的比較 159
7.3  Sqoop 160
7.3.1  從數(shù)據(jù)庫(kù)導(dǎo)入HDFS 160
7.3.2  增量導(dǎo)入 163
7.3.3  將數(shù)據(jù)從Oracle導(dǎo)入Hive 163
7.3.4  將數(shù)據(jù)從Oracle導(dǎo)入HBase 164
7.3.5  導(dǎo)入所有表 165
7.3.6  從HDFS導(dǎo)出數(shù)據(jù) 165
7.3.7  數(shù)據(jù)驗(yàn)證 165
7.3.8  其他Sqoop功能 165
7.4  Storm 167
7.4.1  Storm基本概念 168
7.4.2  spout 169
7.4.3  bolt 171
7.4.4  拓?fù)?173
7.4.5   Storm總結(jié) 175
7.5  Splunk 175
第8章  大數(shù)據(jù)管理平臺(tái) 177
8.1  大數(shù)據(jù)建設(shè)總體架構(gòu) 177
8.2  大數(shù)據(jù)管理平臺(tái)的必要性 178
8.3  大數(shù)據(jù)管理平臺(tái)的功能 179
8.3.1  推進(jìn)數(shù)據(jù)資源全面整合共享 179
8.3.2  增強(qiáng)數(shù)據(jù)管理水平 180
8.3.3  支撐創(chuàng)新大數(shù)據(jù)分析 180
8.4  數(shù)據(jù)管理平臺(tái)(DMP) 180
8.5  EasyDoop案例分析 182
8.5.1  大數(shù)據(jù)建模平臺(tái) 183
8.5.2  大數(shù)據(jù)交換和共享平臺(tái) 184
8.5.3  大數(shù)據(jù)云平臺(tái) 185
8.5.4  大數(shù)據(jù)服務(wù)平臺(tái) 186
8.5.5  EasyDoop平臺(tái)技術(shù)原理分析 188
第9章  Spark技術(shù) 192
9.1  Spark框架 192
9.1.1  安裝Spark 193
9.1.2  配置Spark 194
9.2  Spark Shell 195
9.3  Spark編程 198
9.3.1  編寫Spark API程序 198
9.3.2  使用sbt編譯并打成jar包 199
9.3.3  運(yùn)行程序 200
9.4  RDD 200
9.4.1  RDD算子和RDD依賴關(guān)系 201
9.4.2  RDD轉(zhuǎn)換操作 203
9.4.3  RDD行動(dòng)(Action)操作 204
9.4.4  RDD控制操作 205
9.4.5  RDD實(shí)例 205
9.5  Spark SQL 208
9.5.1  DataFrame 209
9.5.2  RDD轉(zhuǎn)化為DataFrame 213
9.5.3  JDBC數(shù)據(jù)源 215
9.5.4  Hive數(shù)據(jù)源 216
9.6  Spark Streaming 217
9.6.1  DStream編程模型 218
9.6.2  DStream操作 221
9.6.3  性能考慮 223
9.6.4  容錯(cuò)能力 224
9.7  GraphX圖計(jì)算框架 224
9.7.1  屬性圖 226
9.7.2  圖操作符 228
9.7.3  屬性操作 231
9.7.4  結(jié)構(gòu)操作 231
9.7.5  關(guān)聯(lián)(join)操作 233
9.7.6  聚合操作 234
9.7.7  計(jì)算度信息 235
9.7.8  緩存操作 236
9.7.9  圖算法 236
第10章  大數(shù)據(jù)分析 238
10.1  數(shù)據(jù)科學(xué) 239
10.1.1  探索性數(shù)據(jù)分析 240
10.1.2  描述統(tǒng)計(jì) 241
10.1.3  數(shù)據(jù)可視化 241
10.2  預(yù)測(cè)分析 244
10.2.1  預(yù)測(cè)分析實(shí)例 244
10.2.2  回歸(Regression)分析預(yù)測(cè)法 246
10.3  機(jī)器學(xué)習(xí) 247
10.3.1  機(jī)器學(xué)習(xí)的市場(chǎng)動(dòng)態(tài) 248
10.3.2  機(jī)器學(xué)習(xí)分類 249
10.3.3  機(jī)器學(xué)習(xí)算法 251
10.4  Spark MLib 252
10.4.1  MLib架構(gòu) 253
10.4.2  MLib算法庫(kù) 253
10.4.3  決策樹 257
10.5  深入了解算法 261
10.5.1  分類算法 262
10.5.2  預(yù)測(cè)算法 263
10.5.3  聚類分析 263
10.5.4  關(guān)聯(lián)分析 264
10.5.5  異常值分析算法 266
10.5.6  協(xié)同過(guò)濾(推薦引擎)算法 267
10.6  Mahout簡(jiǎn)介 267
第11章  案例分析:環(huán)保大數(shù)據(jù) 268
11.1  環(huán)保大數(shù)據(jù)管理平臺(tái) 268
11.2  環(huán)保大數(shù)據(jù)應(yīng)用平臺(tái) 269
11.2.1  環(huán)境自動(dòng)監(jiān)測(cè)監(jiān)控服務(wù) 270
11.2.2  綜合查詢服務(wù) 272
11.2.3  統(tǒng)計(jì)分析服務(wù) 272
11.2.4  GIS服務(wù) 274
11.2.5  視頻服務(wù) 274
11.2.6  預(yù)警服務(wù) 275
11.2.7  應(yīng)急服務(wù) 276
11.2.8  電子政務(wù)服務(wù) 277
11.2.9  智能化運(yùn)營(yíng)管理系統(tǒng) 279
11.2.10  環(huán)保移動(dòng)應(yīng)用系統(tǒng) 279
11.2.11  空氣質(zhì)量發(fā)布系統(tǒng) 280
11.3  環(huán)保大數(shù)據(jù)分析系統(tǒng) 280
第12章  案例分析:公安大數(shù)據(jù) 281
12.1  總體架構(gòu)設(shè)計(jì) 281
12.2  建設(shè)內(nèi)容 282
12.3  建設(shè)步驟 284
附錄 1  數(shù)據(jù)量的單位級(jí)別 285
附錄 2  Linux Shell常見命令 286
附錄 3  Ganglia(分布式監(jiān)控系統(tǒng)) 289
附錄 4  auth-ssh腳本 290
附錄 5  作者簡(jiǎn)介 292
 

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)