Hadoop大數(shù)據(jù)解決方案

定　價：￥49.80

作　者：	[美] Benoy Antony，Konstantin Boudnik 等著
出版社：	清華大學(xué)出版社
叢編項：	大數(shù)據(jù)應(yīng)用與技術(shù)叢書
標(biāo)　簽：	計算機/網(wǎng)絡(luò) 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)庫

購買這本書可以去

ISBN：	9787302466451	出版時間：	2017-03-01	包裝：	平裝
開本：	16開	頁數(shù)：	264	字數(shù)：

內(nèi)容簡介

　　使用Hadoop構(gòu)建更優(yōu)秀的大數(shù)據(jù)解決方案　Hadoop開源且基于Java、幾乎沒有入門障礙，它提供了迅速占據(jù)市場的實用大數(shù)據(jù)解決方案。《Hadoop大數(shù)據(jù)解決方案》由包括已認證Hadoop開發(fā)者、Committers和峰會演講者在內(nèi)的專家團隊編寫，可以作為有關(guān)該框架流程和功能的自學(xué)教程。書中單獨介紹了各個組件，*后用實際項目將它們聯(lián)系起來并構(gòu)建示例應(yīng)用。本書跳過數(shù)據(jù)庫開發(fā)基礎(chǔ)知識，直奔主題，幫助有經(jīng)驗的開發(fā)者快速上手，并開始在真實場景中使用Hadoop。主要內(nèi)容 ◆ 向你展示使用Hadoop Stack配置存儲、用戶體驗和內(nèi)存計算的方法 ◆ 解釋使用Kafka實時消息和Storm數(shù)據(jù)流將Hadoop與其他系統(tǒng)集成的方法 ◆ 演示關(guān)鍵安全特性與技術(shù)，同時給出保證數(shù)據(jù)安全的專家建議 ◆ 講授使用Apache BigTop打包、測試和配置的基礎(chǔ)知識，以及使用Ignite更快速執(zhí)行MapReduce的方法 ◆ 帶你領(lǐng)略示例應(yīng)用構(gòu)建過程，展示核心組件如何協(xié)同工作，同時提供了所有示例代碼

作者簡介

　　Benoy Antony是Apache Hadoop Committer，在eBay公司擔(dān)任Hadoop架構(gòu)師?！onstantin Boudnik是Memcore.io的共同創(chuàng)始人兼CEO，他是Hadoop的早期開發(fā)者之一，與他人共同創(chuàng)建了Apache Bigtop?！heryl Adams是醫(yī)療數(shù)據(jù)領(lǐng)域的一位資深云數(shù)據(jù)和基礎(chǔ)設(shè)施架構(gòu)師?！ranky Shao是eBay的軟件工程師，同時也是Cascading項目的貢獻者。　Cazen Lee是三星SDS公司的一位軟件架構(gòu)師。　Kai Sasaki是Treasure Data公司的一位軟件工程師。

圖書目錄

第1章 Hadoop概述 1
1.1 商業(yè)分析與大數(shù)據(jù) 2
1.1.1 Hadoop的組件 3
1.1.2 Hadoop分布式文件系統(tǒng)(HDFS) 3
1.1.3 MapReduce是什么 4
1.1.4 YARN是什么 5
1.2 ZooKeeper是什么 6
1.3 Hive是什么 7
1.4 與其他系統(tǒng)集成 8
1.4.1 Hadoop生態(tài)系統(tǒng) 9
1.4.2 數(shù)據(jù)集成與Hadoop 11
1.5 小結(jié) 16
第2章存儲 19
2.1 Hadoop HDFS的基礎(chǔ)知識 20
2.1.1 概念 21
2.1.2 架構(gòu) 25
2.1.3 接口 29
2.2 在分布式模式下設(shè)置HDFS群集 35
2.3 HDFS的高級特性 40
2.3.1 快照 41
2.3.2 離線查看器 44
2.3.3 分層存儲 52
2.3.4 糾刪碼 55
2.4 文件格式 59
2.5 云存儲 63
2.6 小結(jié) 64
第3章計算 65
3.1 Hadoop MapReduce的基礎(chǔ) 66
3.1.1 概念 66
3.1.2 架構(gòu) 69
3.2 如何啟動MapReduce作業(yè) 76
3.2.1 編寫Map任務(wù) 77
3.2.2 編寫reduce任務(wù) 79
3.2.3 編寫MapReduce作業(yè) 80
3.2.4 配置 83
3.3 MapReduce的高級特性 85
3.3.1 分布式緩存 85
3.3.2 計數(shù)器 87
3.3.3 作業(yè)歷史服務(wù)器 89
3.4 與Spark作業(yè)的區(qū)別 91
3.5 小結(jié) 92
第4章用戶體驗 93
4.1 Apache Hive 94
4.1.1 安裝Hive 96
4.1.2 HiveQL 97
4.1.3 UDF/SerDe 103
4.1.4 Hive調(diào)優(yōu) 105
4.2 Apache Pig 106
4.2.1 安裝Pig 107
4.2.2 Pig Latin 108
4.3 UDF 110
4.4 Hue 111
4.5 Apache Oozie 114
4.5.1 安裝Oozie 115
4.5.2 Oozie的工作原理 118
4.5.3 工作流/協(xié)調(diào)器 119
4.5.4 Oozie CLI 124
4.6 小結(jié) 124
第5章與其他系統(tǒng)集成 125
5.1 Apache Sqoop 126
5.2 Apache Flume 130
5.3 Apache Kafka 136
5.3.1 工作原理 138
5.3.2 Kafka Connect 141
5.3.3 流處理 143
5.4 Apache Storm 144
5.4.1 工作原理 145
5.4.2 Trident 148
5.4.3 Kafka集成 149
5.5 小結(jié) 152
第6章 Hadoop安全 153
6.1 提升Hadoop群集安全性 154
6.1.1 邊界安全 154
6.1.2 Kerberos認證 156
6.1.3 Hadoop中的服務(wù)級授權(quán) 162
6.1.4 用戶模擬 167
6.1.5 提升HTTP信道的安全性 170
6.2 提升數(shù)據(jù)安全性 174
6.2.1 數(shù)據(jù)分類 175
6.2.2 將數(shù)據(jù)傳到群集 176
6.2.3 保護群集中的數(shù)據(jù) 182
6.3 增強應(yīng)用程序安全性 189
6.3.1 YARN架構(gòu) 189
6.3.2 YARN中的應(yīng)用提交 190
6.4 小結(jié) 195
第7章自由的生態(tài)圈：Hadoop與Apache BigTop 197
7.1 基礎(chǔ)概念 198
7.1.1 軟件棧 199
7.1.2 測試棧 200
7.1.3 在我的筆記本電腦上工作 201
7.2 開發(fā)定制的軟件棧 201
7.2.1 Apache Bigtop：歷史 201
7.2.2 Apache Bigtop：概念和哲學(xué)思想 202
7.2.3 項目結(jié)構(gòu) 204
7.2.4 談?wù)剺?gòu)建系統(tǒng) 205
7.2.5 工具鏈和開發(fā)環(huán)境 206
7.2.6 BOM定義 207
7.3 部署 208
7.3.1 Bigtop Provisioner 208
7.3.2 群集的無主節(jié)點Puppet部署 209
7.3.3 使用Puppet進行配置管理 213
7.4 集成驗證 215
7.4.1 iTests和驗證應(yīng)用程序 216
7.4.2 棧集成測試開發(fā) 217
7.4.3 棧的驗證 220
7.4.4 群集故障測試 221
7.4.5 棧的冒煙測試 222
7.5 將所有工作組合在一起 223
7.6 小結(jié) 224
第8章 Hadoop軟件棧的In-Memory計算 227
8.1 In-Memory計算簡介 229
8.2 Apache Ignite：內(nèi)存優(yōu)先 231
8.2.1 Apache Ignite的系統(tǒng)體系架構(gòu) 232
8.2.2 數(shù)據(jù)網(wǎng)格 233
8.2.3 高可用性討論 236
8.2.4 計算網(wǎng)格 237
8.2.5 服務(wù)網(wǎng)格 238
8.2.6 內(nèi)存管理 238
8.2.7 持久化存儲 240
8.3 使用Ignite加速舊式Hadoop 240
8.3.1 In-Memory存儲的好處 241
8.3.2 內(nèi)存文件系統(tǒng)：HDFS緩存 242
8.3.3 In-Memory MapReduce 243
8.4 Apache Ignite的高級用法 247
8.4.1 Spark和Ignite 247
8.4.2 共享狀態(tài) 249
8.4.3 Hadoop上的In-Memory SQL 251
8.4.4 使用Ignite的SQL 252
8.4.5 使用Apache Ignite進行流處理 255
8.5 小結(jié) 256
術(shù)語表 259