注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)Hadoop大數(shù)據(jù)處理

Hadoop大數(shù)據(jù)處理

Hadoop大數(shù)據(jù)處理

定 價(jià):¥59.00

作 者: 劉軍 著
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 計(jì)算機(jī)與互聯(lián)網(wǎng) 數(shù)據(jù)庫(kù)

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787115323248 出版時(shí)間: 2013-09-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 289 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  《Hadoop大數(shù)據(jù)處理》以大數(shù)據(jù)處理系統(tǒng)的三大關(guān)鍵要素——“存儲(chǔ)”、“計(jì)算”與“容錯(cuò)”為起點(diǎn),深入淺出地介紹了如何使用Hadoop這一高性能分布式技術(shù)完成大數(shù)據(jù)處理任務(wù)。本書(shū)不僅包含了使用Hadoop進(jìn)行大數(shù)據(jù)處理的實(shí)踐性知識(shí)和示例,還以圖文并茂的形式系統(tǒng)性地揭示了Hadoop技術(shù)族中關(guān)鍵組件的運(yùn)行原理和優(yōu)化手段,為讀者進(jìn)一步提升Hadoop使用技巧和運(yùn)行效率提供了頗具價(jià)值的參考?!禜adoop大數(shù)據(jù)處理》共10章,涉及的主題包括大數(shù)據(jù)處理概論、基于Hadoop的大數(shù)據(jù)處理框架、MapReduce計(jì)算模式、使用HDFS存儲(chǔ)大數(shù)據(jù)、HBase大數(shù)據(jù)庫(kù)、大數(shù)據(jù)的分析處理、Hadoop環(huán)境下的數(shù)據(jù)整合、Hadoop集群的管理與維護(hù)、基于MapReduce的數(shù)據(jù)挖掘?qū)嵺`及面向未來(lái)的大數(shù)據(jù)處理技術(shù)。最后附有一個(gè)在Windows環(huán)境下搭建Hadoop開(kāi)發(fā)及調(diào)試環(huán)境的參考手冊(cè)?!禜adoop大數(shù)據(jù)處理》適合需要使用Hadoop處理大數(shù)據(jù)的程序員、架構(gòu)師和產(chǎn)品經(jīng)理作為技術(shù)參考和培訓(xùn)資料,也可作為高校研究生和本科生教材。

作者簡(jiǎn)介

  劉軍,1994年至2003年,就讀于北京郵電大學(xué)信息工程學(xué)院,獲得博士學(xué)位。2003年至2007年,IBM中國(guó)研究院擔(dān)任高級(jí)研究員及部門(mén)經(jīng)理,研究方向?yàn)殡娦砰_(kāi)放業(yè)務(wù)平臺(tái)及IP融合網(wǎng)絡(luò)管理。2007年至2012年,創(chuàng)辦歡城(北京)科技有限公司,為中國(guó)網(wǎng)頁(yè)游戲產(chǎn)業(yè)開(kāi)創(chuàng)者之一,研發(fā)的產(chǎn)品曾多次獲得互聯(lián)網(wǎng)業(yè)界獎(jiǎng)項(xiàng)。2012年至今,北郵任教,在寬帶網(wǎng)絡(luò)監(jiān)控教研中心從事電信網(wǎng)絡(luò)數(shù)據(jù)分析相關(guān)教學(xué)與研究工作。

圖書(shū)目錄

第1章 大數(shù)據(jù)處理概論
1.1 什么是大數(shù)據(jù)
1.2 數(shù)據(jù)處理平臺(tái)的基礎(chǔ)架構(gòu)
1.3 大數(shù)據(jù)處理的存儲(chǔ)
1.3.1 提升容量
1.3.2 提升吞吐量
1.4 大數(shù)據(jù)處理的計(jì)算模式
1.4.1 多處理技術(shù)
1.4.2 并行計(jì)算
1.5 大數(shù)據(jù)處理系統(tǒng)的容錯(cuò)性
1.5.1 數(shù)據(jù)存儲(chǔ)容錯(cuò)
1.5.2 計(jì)算任務(wù)容錯(cuò)
1.6 大數(shù)據(jù)處理的云計(jì)算變革
本章參考文獻(xiàn)
第2章 基于Hadoop的大數(shù)據(jù)處理架構(gòu)
2.1 Google核心云計(jì)算技術(shù)
2.1.1 并行計(jì)算編程模型MapReduce
2.1.2 分布式文件系統(tǒng)GFS
2.1.3 分布式結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)BigTable
2.2 Hadoop云計(jì)算技術(shù)及發(fā)展
2.2.1 Hadoop的由來(lái)
2.2.2 Hadoop原理與運(yùn)行機(jī)制
2.2.3 Hadoop相關(guān)技術(shù)及簡(jiǎn)介
2.2.4 Hadoop技術(shù)的發(fā)展與演進(jìn)
2.3 基于云計(jì)算的大數(shù)據(jù)處理架構(gòu)
2.4 基于云計(jì)算的大數(shù)據(jù)處理技術(shù)的應(yīng)用
2.4.1 百度
2.4.2 阿里巴巴
2.4.3 騰訊
2.4.4 華為
2.4.5 中國(guó)移動(dòng)
2.5 Hadoop運(yùn)行實(shí)踐
本章參考文獻(xiàn)
第3章 MapReduce計(jì)算模式
3.1 MapReduce原理
3.2 MapReduce工作機(jī)制
3.2.1 MapReduce運(yùn)行框架的組件
3.2.2 MapReduce作業(yè)的運(yùn)行流程
3.2.3 作業(yè)調(diào)度
3.2.4 異常處理
3.3 MapReduce應(yīng)用開(kāi)發(fā)
3.3.1 MapReduce應(yīng)用開(kāi)發(fā)流程
3.3.2 通過(guò)Web界面分析MapReduce應(yīng)用
3.3.3 MapReduce任務(wù)執(zhí)行的單步跟蹤
3.3.4 多個(gè)MapReduce過(guò)程的組合模式
3.3.5 使用其他語(yǔ)言編寫(xiě)MapReduce程序
3.3.6 不同數(shù)據(jù)源的數(shù)據(jù)聯(lián)結(jié)(Join)
3.4 MapReduce設(shè)計(jì)模式
3.4.1 計(jì)數(shù)(Counting)
3.4.2 分類(lèi)(Classfication)
3.4.3 過(guò)濾處理(Filtering)
3.4.4 排序(Sorting)
3.4.5 去重計(jì)數(shù)(Distinct Counting)
3.4.6 相關(guān)計(jì)數(shù)(Cross-Correlation)
3.5 MapReduce算法實(shí)踐
3.5.1 最短路徑算法
3.5.2 反向索引算法
3.5.3 PageRank算法
3.6 MapReduce性能調(diào)優(yōu)
3.6.1 MapReduce參數(shù)配置優(yōu)化
3.6.2 使用Cominber減少數(shù)據(jù)傳輸
3.6.3 啟用數(shù)據(jù)壓縮
3.6.4 使用預(yù)測(cè)執(zhí)行功能
3.6.5 重用JVM
本章參考文獻(xiàn)
第4章 使用HDFS存儲(chǔ)大數(shù)據(jù)
4.1 大數(shù)據(jù)的云存儲(chǔ)需求
4.2 HDFS架構(gòu)與流程
4.2.1 系統(tǒng)框架
4.2.2 數(shù)據(jù)讀取過(guò)程
4.2.3 數(shù)據(jù)寫(xiě)入過(guò)程
4.3 文件訪(fǎng)問(wèn)與控制
4.3.1 基于命令行的文件管理
4.3.2 通過(guò)API操作文件
4.4 HDFS性能優(yōu)化
4.4.1 調(diào)整數(shù)據(jù)塊尺寸
4.4.2 規(guī)劃網(wǎng)絡(luò)與節(jié)點(diǎn)
4.4.3 調(diào)整服務(wù)隊(duì)列數(shù)量
4.4.4 預(yù)留磁盤(pán)空間
4.4.5 存儲(chǔ)平衡
4.4.6 根據(jù)節(jié)點(diǎn)功能優(yōu)化磁盤(pán)配置
4.4.7 其他參數(shù)
4.5 HDFS的小文件存儲(chǔ)問(wèn)題
4.5.1 Hadoop Archive工具
4.5.2 CombineFileInputFormat
4.5.3 SequenceFile格式
4.5.4 相關(guān)研究
4.6 HDFS的高可用性問(wèn)題
4.6.1 基于配置的元數(shù)據(jù)備份
4.6.2 基于DRBD的元數(shù)據(jù)備份
4.6.3 Secondary NameNode/CheckpointNode
4.6.4 Backup Node
4.6.5 NameNode熱備份
4.6.6 HDFS的HA方案總結(jié)
本章參考文獻(xiàn)
第5章 HBase大數(shù)據(jù)庫(kù)
5.1 大數(shù)據(jù)環(huán)境下的數(shù)據(jù)庫(kù)
5.2 HBase架構(gòu)與原理
5.2.1 系統(tǒng)架構(gòu)及組件
5.2.2 數(shù)據(jù)模型與物理存儲(chǔ)
5.2.3 RegionServer的查找
5.2.4 物理部署與讀寫(xiě)流程
5.3 管理HBase中的數(shù)據(jù)
5.3.1 Shell
5.3.2 Java API
5.3.3 非Java語(yǔ)言訪(fǎng)問(wèn)
5.4 從RDBMS到HBase
5.4.1 行到列與主鍵到行關(guān)鍵字
5.4.2 聯(lián)合查詢(xún)(Join)與去范例化(Denormalization)
5.5 在HBase上運(yùn)行MapReduce
5.6 HBase性能優(yōu)化
5.6.1 參數(shù)配置優(yōu)化
5.6.2 表設(shè)計(jì)優(yōu)化
5.6.3 更新數(shù)據(jù)操作優(yōu)化
5.6.4 讀數(shù)據(jù)操作優(yōu)化
5.6.5 數(shù)據(jù)壓縮
5.6.6 JVM GC優(yōu)化
5.6.7 負(fù)載均衡
5.6.8 性能測(cè)試工具
本章參考文獻(xiàn)
第6章 大數(shù)據(jù)的分析處理
6.1 大數(shù)據(jù)的分析處理概述
6.2 Hive
6.2.1 系統(tǒng)架構(gòu)及組件
6.2.2 Hive數(shù)據(jù)結(jié)構(gòu)
6.2.3 數(shù)據(jù)存儲(chǔ)格式
6.2.4 Hive支持的數(shù)據(jù)類(lèi)型
6.2.5 使用HiveQL訪(fǎng)問(wèn)數(shù)據(jù)
6.2.6 自定義函數(shù)擴(kuò)展功能
6.3 Pig
6.3.1 Pig架構(gòu)
6.3.2 Pig Latin語(yǔ)言
6.3.3 使用Pig處理數(shù)據(jù)
6.4 Hive與Pig的對(duì)比
本章參考文獻(xiàn)
第7章 Hadoop環(huán)境下的數(shù)據(jù)整合
7.1 Hadoop計(jì)算環(huán)境下的數(shù)據(jù)整合問(wèn)題
7.2 數(shù)據(jù)庫(kù)整合工具Sqoop
7.2.1 使用Sqoop導(dǎo)入數(shù)據(jù)
7.2.2 使用Sqoop導(dǎo)出數(shù)據(jù)
7.2.3 Sqoop與Hive結(jié)合
7.2.4 Sqoop對(duì)大對(duì)象數(shù)據(jù)的處理
7.3 Hadoop平臺(tái)內(nèi)部數(shù)據(jù)整合工具HCatalog
7.3.1 HCatalog的需求與實(shí)現(xiàn)
7.3.2 MapReduce使用HCatalog管理數(shù)據(jù)
7.3.3 Pig使用HCatalog管理數(shù)據(jù)
7.3.4 HCatalog的命令行與通知功能
本章參考文獻(xiàn)
第8章 Hadoop集群的管理與維護(hù)
8.1 云計(jì)算平臺(tái)的管理體系
8.2 ZooKeeper——集群中的配置管理與協(xié)調(diào)者
8.2.1 集群環(huán)境下的配置管理
8.2.2 ZooKeeper架構(gòu)
8.2.3 ZooKeeper的數(shù)據(jù)模型
8.3 Hadoop集群監(jiān)控的基礎(chǔ)組件
8.3.1 Nagios
8.3.2 Ganglia
8.3.3 JMX
8.4 Ambari——Hadoop集群部署與監(jiān)控集成工具
8.5 基于Cacti的Hadoop集群服務(wù)器監(jiān)控
8.6 Chukwa——集群日志收集及分析
8.7 基于Kerberos的Hadoop安全管理
8.8 Hadoop集群管理工具分析
本章參考文獻(xiàn)
第9章 基于MapReduce的數(shù)據(jù)挖掘
9.1 數(shù)據(jù)挖掘及其分布式并行化
9.2 基于MapReduce的數(shù)據(jù)挖掘與Mahout
9.3 經(jīng)典數(shù)據(jù)挖掘算法的MapReduce實(shí)例
9.3.1 矩陣乘法
9.3.2 相似度計(jì)算
9.4 基于云計(jì)算的數(shù)據(jù)挖掘?qū)嵺`及面臨的挑戰(zhàn)
本章參考文獻(xiàn)
第10章 面向未來(lái)的大數(shù)據(jù)處理
10.1 下一代計(jì)算框架YARN
10.2 大數(shù)據(jù)的實(shí)時(shí)交互式分析
10.2.1 Google Dremel
10.2.2 Cloudera Impala
10.3 大數(shù)據(jù)的圖計(jì)算
10.3.1 BSP模型
10.3.2 Google Pregel計(jì)算框架
10.3.3 Apache Hama開(kāi)源項(xiàng)目
本章參考文獻(xiàn)
附錄 基于Cygwin的Hadoop環(huán)境搭建
附錄A 安裝和配置Cygwin
附錄B 安裝和配置Hadoop
附錄C 運(yùn)行示例程序驗(yàn)證Hadoop安裝
附錄D 安裝和配置Eclipse下的Hadoop開(kāi)發(fā)環(huán)境

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)