注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機(jī)/網(wǎng)絡(luò)行業(yè)軟件及應(yīng)用Hadoop MapReduce實戰(zhàn)手冊

Hadoop MapReduce實戰(zhàn)手冊

Hadoop MapReduce實戰(zhàn)手冊

定 價:¥49.00

作 者: (斯里蘭卡)Srinath Perera,Thilina Gunarathne
出版社: 人民郵電出版社
叢編項:
標(biāo) 簽: 計算機(jī)/網(wǎng)絡(luò) 軟件工程/開發(fā)項目管理

ISBN: 9787115384379 出版時間: 2015-03-01 包裝:
開本: 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  這是一本學(xué)習(xí)Hadoop MapReduce的一站式指南,完整介紹了Hadoop生態(tài)體系,包括Hadoop平臺安裝、部署、運(yùn)維等,Hadoop生態(tài)系統(tǒng)成員Hive、Pig、HBase、Mahout等。最重要的是,書中包含豐富的示例和多樣的實際應(yīng)用場景,以一種簡單而直接的方式呈現(xiàn)了90個實戰(zhàn)攻略,并給出一步步的指導(dǎo)。本書從獲取Hadoop并在集群中運(yùn)行講起,依次介紹了高級HDFS,高級Hadoop MapReduce管理,開發(fā)復(fù)雜的Hadoop MapReduce應(yīng)用程序,Hadoop的生態(tài)系統(tǒng),統(tǒng)計分析,搜索與索引,聚類、推薦和尋找關(guān)聯(lián),海量文本數(shù)據(jù)處理,云部署等內(nèi)容。

作者簡介

  作者介紹Srinath Perera是WSO2公司的高級軟件架構(gòu)師,與CTO一同全觀整個WSO2平臺架構(gòu)。同時,他也是斯里蘭卡軟件基金會的一位研究科學(xué)家,并作為訪問學(xué)者在莫勒圖沃大學(xué)計算機(jī)科學(xué)與工程系授課。他是Apache Axis2開源軟件項目的聯(lián)合創(chuàng)始人,他自2002年以來一直參與Apache Web Service項目,并且是Apache軟件基金會和Apache Web服務(wù)項目PMC的成員。Srinath也是Apache Axis、Axis2和Geronimo開源項目的committer。他在美國印第安納大學(xué)伯明頓分校獲得博士和碩士學(xué)位,在斯里蘭卡莫勒圖沃大學(xué)獲得了計算科學(xué)與工程學(xué)士學(xué)位。Srinath已經(jīng)撰寫了許多技術(shù)文章和同行評審的研究文章,可以從他的個人網(wǎng)站找到更多細(xì)節(jié)。他還經(jīng)常在技術(shù)會議上做演講。他長期研究大規(guī)模分布式系統(tǒng)。他的日常工作與大數(shù)據(jù)技術(shù)(如Hadoop和Cassandra)結(jié)合很緊密。他還在莫勒圖沃大學(xué)研究生班教授并行計算,主要是基于Hadoop。Thilina Gunarathne是印第安納大學(xué)信息與計算學(xué)院博士。他在使用Apache Hadoop以及大規(guī)模數(shù)據(jù)密集型計算技術(shù)方面有著豐富的經(jīng)驗。他目前的主要工作是致力于研發(fā)在云環(huán)境執(zhí)行可擴(kuò)展的、高效的大規(guī)模數(shù)據(jù)密集型計算的技術(shù)。Thilina發(fā)表了很多論文,并且同行評審了很多分布式計算和并行計算領(lǐng)域的研究論文,包括一些在云環(huán)境擴(kuò)展MapReduce模型進(jìn)行有效的數(shù)據(jù)挖掘和數(shù)據(jù)分析的論文。Thilina經(jīng)常在學(xué)術(shù)界和工業(yè)界會議上發(fā)表演講。Thilina自2005年以來,在Apache軟件基金會下貢獻(xiàn)了若干個開源項目,并成為committer和PMC成員。在開始研究生學(xué)習(xí)之前,Thilina在WSO2公司擔(dān)任高級軟件工程師,專注于開源中間件開發(fā)。Thilina 2006年在斯里蘭卡莫勒圖沃大學(xué)獲得計算機(jī)科學(xué)與工程學(xué)士學(xué)位,2009年在美國印第安納大學(xué)伯明頓分校獲得計算機(jī)科學(xué)碩士學(xué)位,2013年獲得分布式和并行計算領(lǐng)域博士學(xué)位。譯者介紹楊卓犖 阿里巴巴集團(tuán)數(shù)據(jù)平臺事業(yè)部資深研發(fā)工程師。2011年起,在阿里巴巴從事Hadoop五年,集團(tuán)SQL on Hadoop負(fù)責(zé)人,Hadoop/Yarn/Hive contributor,開源軟件愛好者。

圖書目錄

目錄
第1章 搭建Hadoop并在集群中運(yùn)行 1
1.1 簡介 1
1.2 在你的機(jī)器上安裝Hadoop 2
1.3 寫WordCountMapReduce示例程序,打包并使用獨(dú)立的Hadoop運(yùn)行它 3
1.4 給WordCount MapReduce程序增加combiner步驟 7
1.5 安裝HDFS 8
1.6 使用HDFS監(jiān)控UI 11
1.7 HDFS的基本命令行文件操作 12
1.8 在分布式集群環(huán)境中設(shè)置Hadoop 14
1.9 在分布式集群環(huán)境中運(yùn)行WordCount程序 18
1.10 使用MapReduce監(jiān)控UI 20
第2章 HDFS進(jìn)階 21
2.1 簡介 21
2.2 HDFS基準(zhǔn)測試 22
2.3 添加一個新的DataNode 23
2.4 DataNode下架 25
2.5 使用多個磁盤/卷以及限制HDFS的磁盤使用情況 26
2.6 設(shè)置HDFS塊大小 27
2.7 設(shè)置文件冗余因子 28
2.8 使用HDFS的Java API 29
2.9 使用HDFS的C API(libhdfs) 33
2.10 掛載HDFS(Fuse-DFS) 36
2.11 在HDFS中合并文件 38
第3章 高級Hadoop MapReduce運(yùn)維 40
3.1 簡介 40
3.2 調(diào)優(yōu)集群部署的Hadoop配置 40
3.3 運(yùn)行基準(zhǔn)測試來驗證Hadoop的安裝 43
3.4 復(fù)用Java虛擬機(jī)以提高性能 44
3.5 容錯和推測執(zhí)行 45
3.6 調(diào)試腳本—分析任務(wù)失敗 46
3.7 設(shè)置失敗百分比以及跳過不良記錄 48
3.8 共享用戶的Hadoop集群—使用公平調(diào)度器和其他調(diào)度器 50
3.9 Hadoop的安全性——整合使用Kerberos 51
3.10 使用Hadoop的工具接口 56
第4章 開發(fā)復(fù)雜的Hadoop MapReduce應(yīng)用程序 59
4.1 簡介 59
4.2 選擇合適的Hadoop數(shù)據(jù)類型 60
4.3 實現(xiàn)自定義的Hadoop Writable數(shù)據(jù)類型 62
4.4 實現(xiàn)自定義Hadoop key類型 65
4.5 從mapper中輸出不同值類型的數(shù)據(jù) 68
4.6 為輸入數(shù)據(jù)格式選擇合適的Hadoop InputFormat 70
4.7 添加新的輸入數(shù)據(jù)格式的支持—實現(xiàn)自定義的InputFormat 73
4.8 格式化MapReduce計算的結(jié)果—使用Hadoop的OutputFormat 76
4.9 Hadoop的中間(map到reduce)數(shù)據(jù)分區(qū) 78
4.10 將共享資源傳播和分發(fā)到MapReduce作業(yè)的任務(wù)中—Hadoop DistributedCache 80
4.11 在Hadoop上使用傳統(tǒng)應(yīng)用程序—Hadoop Streaming 84
4.12 添加MapReduce作業(yè)之間的依賴關(guān)系 86
4.13 用于報告自定義指標(biāo)的Hadoop計數(shù)器 88
第5章 Hadoop生態(tài)系統(tǒng) 90
5.1 簡介 90
5.2 安裝HBase 91
5.3 使用Java客戶端API隨機(jī)存取數(shù)據(jù) 93
5.4 基于HBase(表輸入/輸出)運(yùn)行MapReduce作業(yè) 95
5.5 安裝Pig 98
5.6 運(yùn)行第一條Pig命令 99
5.7 使用Pig執(zhí)行集合操作(join,union)與排序 100
5.8 安裝Hive 102
5.9 使用Hive運(yùn)行SQL風(fēng)格的查詢 103
5.10 使用Hive執(zhí)行join 105
5.11 安裝Mahout 107
5.12 使用Mahout運(yùn)行K-means 108
5.13 可視化K-means結(jié)果 110
第6章 分析 112
6.1 簡介 112
6.2 使用MapReduce的簡單分析 113
6.3 使用MapReduce執(zhí)行Group-By 116
6.4 使用MapReduce計算頻率分布和排序 119
6.5 使用GNU Plot繪制Hadoop計算結(jié)果 121
6.6 使用MapReduce計算直方圖 123
6.7 使用MapReduce計算散點(diǎn)圖 126
6.8 用Hadoop解析復(fù)雜的數(shù)據(jù)集 129
6.9 使用MapReduce連接兩個數(shù)據(jù)集 133
第7章 搜索和索引 139
7.1 簡介 139
7.2 使用Hadoop MapReduce生成倒排索引 140
7.3 使用ApacheNutch構(gòu)建域內(nèi)網(wǎng)絡(luò)爬蟲 143
7.4 使用Apache Solr索引和搜索網(wǎng)絡(luò)文檔 147
7.5 配置Apache HBase作為ApacheNutch的后端數(shù)據(jù)存儲 149
7.6 在Hadoop集群上部署Apache HBase 151
7.7 使用Hadoop/HBase集群構(gòu)建Apache Nutch全網(wǎng)爬蟲服務(wù) 153
7.8 用于索引和搜索的ElasticSearch 156
7.9 生成抓取網(wǎng)頁的內(nèi)鏈圖 158
第8章 聚類、推薦和關(guān)系發(fā)現(xiàn) 161
8.1 簡介 161
8.2 基于內(nèi)容的推薦 162
8.3 層次聚類 167
8.4 對亞馬遜銷售數(shù)據(jù)集進(jìn)行聚類操作 170
8.5 基于協(xié)同過濾的推薦 173
8.6 使用樸素貝葉斯分類器的分類 176
8.7 使用Adwords平衡算法給廣告分配關(guān)鍵字 181
第9章 海量文本數(shù)據(jù)處理 189
9.1 簡介 189
9.2 使用Hadoop Streaming和Python預(yù)處理數(shù)據(jù)(抽取、清洗和格式轉(zhuǎn)換) 190
9.3 使用Hadoop Streaming進(jìn)行數(shù)據(jù)去重 192
9.4 使用importtsv和批量加載工具把大型數(shù)據(jù)集加載到ApacheHBase
數(shù)據(jù)存儲中 194
9.5 創(chuàng)建用于文本數(shù)據(jù)的TF向量和TF-IDF向量 198
9.6 聚類文本數(shù)據(jù) 201
9.7 使用隱含狄利克雷分布(LDA)發(fā)現(xiàn)主題 203
9.8 使用Mahout的樸素貝葉斯分類器分類文件 206
第10章 云端部署——在云上使用Hadoop 208
10.1 簡介 208
10.2 使用亞馬遜彈性MapReduce運(yùn)行Hadoop MapReduce計算 209
10.3 使用亞馬遜EC2競價實例來執(zhí)行EMR作業(yè)流以節(jié)約開支 212
10.4 使用EMR執(zhí)行Pig腳本 213
10.5 使用EMR執(zhí)行Hive腳本 216
10.6 使用命令行界面創(chuàng)建亞馬遜EMR作業(yè)流 219
10.7 使用EMR在亞馬遜EC2云上部署Apache HBase集群 222
10.8 使用EMR引導(dǎo)操作來配置亞馬遜EMR作業(yè)的虛擬機(jī) 226
10.9 使用Apache Whirr在云環(huán)境中部署Apache Hadoop集群 228
10.10 使用Apache Whirr在云環(huán)境中部署Apache HBase集群 231

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號