注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡家庭與辦公軟件大數(shù)據(jù)開發(fā)者權威教程:NoSQL Hadoop組件及大數(shù)據(jù)實施

大數(shù)據(jù)開發(fā)者權威教程:NoSQL Hadoop組件及大數(shù)據(jù)實施

大數(shù)據(jù)開發(fā)者權威教程:NoSQL Hadoop組件及大數(shù)據(jù)實施

定 價:¥109.00

作 者: Wrox國際IT認證項目組 著,顧晨 譯
出版社: 人民郵電出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787115493712 出版時間: 2018-12-01 包裝: 平裝
開本: 16開 頁數(shù): 457 字數(shù):  

內容簡介

  “大數(shù)據(jù)”近年來成為IT領域的熱點話題,人們每天都會通過互聯(lián)網、移動設備等產生大量數(shù)據(jù)。如何管理大數(shù)據(jù)、掌握大數(shù)據(jù)的核心技術、理解大數(shù)據(jù)相關的生態(tài)系統(tǒng)等,是作為大數(shù)據(jù)開發(fā)者必須學習和熟練掌握的知識。本系列書以“大數(shù)據(jù)開發(fā)者”應掌握的技術為主線,共分兩卷,以7個模塊分別介紹如何管理大數(shù)據(jù)生態(tài)系統(tǒng)、如何存儲和處理數(shù)據(jù)、如何利用Hadoop工具、如何利用NoSQL與Hadoop協(xié)同工作,以及如何利用Hadoop商業(yè)發(fā)行版和管理工具。本系列書涵蓋了大數(shù)據(jù)開發(fā)工作的核心內容,全面且詳盡地涵蓋了大數(shù)據(jù)開發(fā)的各個領域。本書為第2卷,共3個模塊,分別介紹Hadoop工具(如ZooKeeper、Sqoop、Flume、YARN和Storm等),利用NoSQL和Hadoop完成實時、安全和云的相關工作,以及Hadoop商業(yè)發(fā)行版和管理工具(如Cloudera、Hortonworks、Greenplum Pivotal HD等),最后介紹幾個實用軟件的功能、指南和安裝步驟。本書適用于想成為大數(shù)據(jù)開發(fā)人員以及所有對大數(shù)據(jù)開發(fā)感興趣的技術人員和決策者閱讀。

作者簡介

  本書作者均為國際知名IT培訓機構的知名講師,他們通過對技術、IT市場需求以及當今就業(yè)培訓方面的全球行業(yè)標準進行了廣泛并嚴格的調研之后,集結成這套“大數(shù)據(jù)開發(fā)者**教程”。作者們的目標是通過這套書為有志于在大數(shù)據(jù)開發(fā)領域取得事業(yè)成功的人技術人員和決策者提供bi備的技術和技能。 譯者簡介 顧晨,男,碩士、PMP、信息系統(tǒng)項目管理師。畢業(yè)于上海交通大學。曾獲邀參加舊金山的Google I/O大會。喜歡所有與編程相關的事物,擁有14年的編程經驗。對于大數(shù)據(jù)、SAP HANA數(shù)據(jù)庫和思科技術有著極其濃厚的興趣,是國內較早從事HANA數(shù)據(jù)庫研究的人員之一。先后錄制了MCSE、CCNP等多種教學視頻,在多家知名網站發(fā)布。精通C#、Java編程,目前正致力于人臉識別、室內定位和門店人流統(tǒng)計方面的研究。

圖書目錄

目 錄
模塊1 額外的Hadoop工具:ZooKeeper、Sqoop、Flume、YARN和Storm
第1講 用ZooKeeper進行分布式處理協(xié)調 3
1.1 ZooKeeper簡介 4
1.1.1 ZooKeeper的好處 4
1.1.2 ZooKeeper術語 6
1.1.3 ZooKeeper命令行界面(CLI) 7
1.2 安裝和運行ZooKeeper 9
1.2.1 支持的平臺 9
1.2.2 所需的軟件 9
1.2.3 單服務器的安裝 9
1.3 使用ZooKeeper 10
1.4 ZooKeeper應用程序 12
1.4.1 FS爬取 13
1.4.2 Katta 14
1.4.3 Yahoo!消息代理(YMB) 14
1.5 使用ZooKeeper構建應用程序 15
1.5.1 Exec.java 15
1.5.2 處理事件 17
1.5.3 監(jiān)控數(shù)據(jù) 19
1.5.4 實現(xiàn)屏障和生產者-消費者隊列 22
練習 30
備忘單 33
第2講 利用Sqoop有效地傳輸批量數(shù)據(jù) 34
2.1 Sqoop簡介 35
2.1.1 Sqoop中的工作流 36
2.1.2 Sqoop的特性 36
2.2 使用Sqoop 1 37
2.3 用Sqoop導入數(shù)據(jù) 41
2.3.1 導入完整的表 41
2.3.2 用HBase Sqoop導入帶有復合鍵的表 42
2.3.3 指定目標目錄 43
2.3.4 導入選擇的行 43
2.3.5 密碼保護 44
2.3.6 用不同的文件格式導入數(shù)據(jù) 44
2.3.7 導入數(shù)據(jù)壓縮 45
2.4 控制并行 45
2.5 編碼NULL值 47
2.6 將數(shù)據(jù)導入Hive表 47
2.7 將數(shù)據(jù)導入HBase 47
2.7.1 使用自由形式查詢 48
2.7.2 重命名Sqoop作業(yè) 48
2.8 導出數(shù)據(jù) 49
2.8.1 批量導出 50
2.8.2 原子導出 50
2.9 將數(shù)據(jù)導出至列的子集 50
2.10 Sqoop中的驅動程序和連接器 51
2.10.1 驅動程序 51
2.10.2 連接器 52
2.10.3 連接到數(shù)據(jù)庫 52
2.11 Sqoop架構概覽 54
2.12 Sqoop 2 55
2.12.1 Sqoop 2的優(yōu)勢 56
2.12.2 易于擴展 56
2.12.3 安全 57
練習 58
備忘單 60
第3講 Flume 62
3.1 Flume簡介 63
3.1.1 Flume架構 64
3.1.2 流可靠性 66
3.2 Flume配置文件 66
3.2.1 流定義 67
3.2.2 配置單個組件 67
3.2.3 在代理中添加多個流 68
3.2.4 配置多代理流 69
3.2.5 配置流扇出 70
3.3 設置Flume 71
3.3.1 安裝Flume 71
3.3.2 配置Flume代理 72
3.3.3 數(shù)據(jù)消費 74
3.4 構建Flume 77
3.4.1 獲得源點 77
3.4.2 編譯/測試Flume 77
3.4.3 開發(fā)自定義組件 77
練習 90
備忘單 92
第4講 超越MapReduce—YARN 94
4.1 YARN簡介 95
4.2 為什么用YARN 96
4.2.1 提高可擴展性 96
4.2.2 效率 97
4.2.3 集群共享 97
4.3 YARN生態(tài)系統(tǒng) 98
4.3.1 YARN架構 99
4.3.2 資源 100
4.3.3 資源管理器 101
4.3.4 ApplicationMaster 103
4.3.5 YARN的局限性 106
4.4 YARN API例子 107
4.4.1 YARN應用程序剖析 107
4.4.2 客戶端 108
4.4.3 把它們整合到一起 115
4.5 Mesos和YARN的比較 116
4.5.1 Mesos簡介 116
4.5.2 Mesos和Hadoop 118
練習 120
備忘單 122
第5講 Storm on YARN 124
5.1 Storm和Hadoop 125
5.2 Storm簡介 126
5.2.1 Storm架構 126
5.2.2 Storm應用剖析 129
5.3 Storm API 132
5.3.1 spout 132
5.3.2 bolt 134
5.4 Storm on YARN 134
5.4.1 Storm on YARN架構 135
5.4.2 Storm on YARN的局限性 136
5.5 安裝Storm on YARN 136
5.5.1 先決條件 136
5.5.2 安裝步驟 137
5.5.3 排錯 138
5.5.4 管理YARN on Storm 138
5.6 Storm on YARN的例子 139
5.6.1 傳感器數(shù)據(jù)spout 139
5.6.2 儀表盤bolt 140
5.6.3 HDFS日志記錄器bolt 142
5.6.4 主程序 144
5.6.5 運行示例 146
練習 148
備忘單 151
模塊2 利用NoSQL和Hadoop:實時、安全和云
第1講 Hello NoSQL 155
1.1 看兩個簡單的例子 156
1.1.1 持久化偏好數(shù)據(jù)的一個簡單集合——MongoDB 156
1.1.2 存儲汽車品牌和型號數(shù)據(jù)——Apache Cassandra 162
1.2 利用語言綁定進行工作 171
1.2.1 MongoDB的驅動程序 171
1.2.2 初識Thrift 174
1.3 存儲和訪問數(shù)據(jù) 177
1.4 在MongoDB中存儲和訪問數(shù)據(jù) 178
1.5 在HBase中存儲和訪問數(shù)據(jù) 185
1.6 在Apache Cassandra中存儲和訪問數(shù)據(jù) 189
1.7 NoSQL數(shù)據(jù)存儲的語言綁定 191
1.7.1 用Thrift進行診斷 191
1.7.2 Java的語言綁定 191
1.7.3 PHP的語言綁定 194
練習 195
備忘單 198
第2講 使用NoSQL 199
2.1 創(chuàng)建記錄 200
2.2 訪問數(shù)據(jù) 213
2.2.1 訪問來自MongoDB的文檔 213
2.2.2 訪問來自HBase的數(shù)據(jù) 214
2.2.3 查詢Redis 215
2.3 更新和刪除數(shù)據(jù) 216
2.4 MongoDB查詢語言的能力 217
2.4.1 加載MovieLens數(shù)據(jù) 219
2.4.2 獲取評級數(shù)據(jù) 221
2.4.3 MongoDB中的MapReduce 224
2.5 訪問來自HBase這樣的面向列的數(shù)據(jù)庫的數(shù)據(jù) 228
練習 230
備忘單 234
第3講 Hadoop安全 236
3.1 Hadoop安全挑戰(zhàn) 238
3.2 認證 239
3.2.1 Kerberos認證 239
3.2.2 Kerberos RPC 244
3.2.3 基于Web的控制臺的Kerberos 245
3.3 委托安全憑證 248
3.4 授權 253
3.4.1 HDFS文件權限 253
3.4.2 服務級別授權 257
3.4.3 作業(yè)授權 260
練習 261
備忘單 263
第4講 在AWS上運行Hadoop應用程序 265
4.1 開始了解AWS 266
4.2 在AWS上運行Hadoop的選項 267
4.2.1 使用EC2實例的自定義安裝 267
4.2.2 彈性MapReduce 268
4.3 了解EMR-Hadoop的關系 269
4.3.1 EMR架構 270
4.3.2 使用S3存儲 271
4.3.3 最大化地利用EMR 272
4.3.4 使用CloudWatch和其他AWS組件 274
4.3.5 訪問和使用EMR 274
4.4 使用AWS S3 280
4.4.1 了解桶的用法 280
4.4.2 利用控制臺的內容瀏覽 282
4.4.3 編程訪問S3中的文件 283
4.4.4 使用MapReduce上傳多個文件至S3 294
4.5 自動化EMR作業(yè)流的創(chuàng)建和作業(yè)執(zhí)行 296
4.6 組織協(xié)調EMR中作業(yè)的執(zhí)行 301
4.6.1 使用EMR集群上的Oozie 301
4.6.2 AWS簡單工作流 303
4.6.3 AWS數(shù)據(jù)管道 304
練習 306
備忘單 309
第5講 實時Hadoop 311
5.1 實時Hadoop應用 312
5.2 使用HBase實現(xiàn)實時應用 313
5.2.1 將HBase用作照片管理系統(tǒng) 315
5.2.2 將HBase用作Lucene的后端 322
5.3 使用專門的實時Hadoop查詢系統(tǒng) 342
5.3.1 Apache Drill 344
5.3.2 Impala 345
5.3.3 將實時查詢系統(tǒng)與MapReduce比較 347
5.4 使用基于Hadoop的事件處理系統(tǒng) 347
5.4.1 HFlame 348
5.4.2 Storm 350
5.4.3 將事件處理與MapReduce作比較 352
練習 353
備忘單 356
模塊3 Hadoop商業(yè)發(fā)行版和管理工具
第1講 大數(shù)據(jù)簡介 359
1.1 Cloudera基礎 360
1.1.1 包含Apache Hadoop的Cloudera發(fā)行版 360
1.1.2 Cloudera管理器 361
1.1.3 Cloudera標準版 362
1.1.4 Cloudera企業(yè)版 363
1.2 Cloudera管理器簡介 365
1.3 Cloudera管理器的管理控制臺 367
1.3.1 啟動并登錄管理控制臺 370
1.3.2 主頁 370
1.4 添加和管理服務 371
1.4.1 添加新服務 371
1.4.2 啟動服務 372
1.4.3 停止服務 372
1.4.4 重啟服務 373
1.5 使用Cloudera管理器的業(yè)務案例 373
1.6 Cloudera管理器的安裝要求 374
練習 375
備忘單 377
第2講 Cloudera上的Hive和Cloudera管理 379
2.1 Apache Hive簡介 380
2.1.1 Hive特性 380
2.1.2 HiveQL 380
2.2 Hive服務 381
2.2.1 Hive元數(shù)據(jù)服務器 382
2.2.2 Hive網關 382
2.2.3 升級Cloudera管理器 382
2.3 為Hive元存儲配置模式 383
2.3.1 嵌入模式 383
2.3.2 本地模式 384
2.3.3 遠程模式 385
2.4 配置Hive元存儲 386
2.4.1 Red Hat操作系統(tǒng) 386
2.4.2 SLES操作系統(tǒng) 388
2.4.3 Debian/Ubuntu操作系統(tǒng) 388
2.5 為Hive設置Cloudera Manager 4.5 389
2.6 Hive復制 391
練習 394
備忘單 396
第3講 Hortonworks和Greenplum Pivotal HD 397
3.1 Hortonworks數(shù)據(jù)平臺 398
3.1.1 核心服務 400
3.1.2 數(shù)據(jù)服務 400
3.1.3 操作服務 401
3.2 系統(tǒng)需求和環(huán)境 402
3.2.1 系統(tǒng)需求 402
3.2.2 構建一個受支持的環(huán)境 404
3.3 安裝HDP 405
3.4 使用Talend Open Studio 409
3.4.1 安裝Talend Open Studio 410
3.4.2 將數(shù)據(jù)導入Talend Open Studio 411
3.4.3 執(zhí)行數(shù)據(jù)分析 413
3.5 Greenplum Pivotal HD 417
練習 420
備忘單 422
第4講 IBM InfoSphere BigInsights和MapR 424
4.1 InfoSphere BigInsights簡介 425
4.1.1 Apache Hadoop發(fā)行版的InfoSphere BigInsights組件 426
4.1.2 額外的Hadoop技術 427
4.1.3 文本分析 428
4.1.4 IBM Big SQL服務器 428
4.1.5 InfoSphere BigInsights控制臺 428
4.1.6 InfoSphere BigInsights的Eclipse工具 429
4.2 安裝準備 430
4.2.1 復核系統(tǒng)需求 431
4.2.2 選擇一個用戶 431
4.2.3 配置瀏覽器 432
4.2.4 下載InfoSphere BigInsights 437
4.2.5 完成常見先決條件的任務 437
4.3 安裝InfoSphere BigInsights 440
4.4 MapR簡介 442
練習 445
備忘單 447
第5講 應聘準備 449
5.1 大數(shù)據(jù)開發(fā)者需要的關鍵技術工具和框架 451
5.2 大數(shù)據(jù)開發(fā)者的工作角色和職責 452
5.3 大數(shù)據(jù)開發(fā)者職業(yè)機會領域 453

本目錄推薦

掃描二維碼
Copyright ? 讀書網 ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號