從零開(kāi)始學(xué)Hadoop大數(shù)據(jù)分析（視頻教學(xué)版）

定　價(jià)：￥89.00

作　者：	溫春水，畢潔馨著
出版社：	機(jī)械工業(yè)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購(gòu)買(mǎi)這本書(shū)可以去

ISBN：	9787111619314	出版時(shí)間：	2019-03-01	包裝：	平裝
開(kāi)本：	16開(kāi)	頁(yè)數(shù)：	368	字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　本書(shū)針對(duì)愿意加入大數(shù)據(jù)行業(yè)的初學(xué)者量身定做，以簡(jiǎn)練風(fēng)趣的語(yǔ)言介紹了大數(shù)據(jù)程核心技術(shù)及相關(guān)案例。內(nèi)容包括了數(shù)據(jù)的基本概念、Hadoop的安裝與配置、HDFS、基于Hadoop3的HDFS高可用、Zookeeper、MapReduce、YARN、Sqoop、KafKa、Redis，每個(gè)知識(shí)點(diǎn)配有可運(yùn)行的案例，同時(shí)結(jié)合企業(yè)實(shí)際案例，讓讀者能夠掌握從大數(shù)據(jù)環(huán)境搭建到大數(shù)據(jù)核心技術(shù)，并且進(jìn)一步熟悉企業(yè)案例的分析及開(kāi)發(fā)過(guò)程，從而輕松進(jìn)入到大數(shù)據(jù)領(lǐng)域。本書(shū)實(shí)用性強(qiáng)，非常適合Hadoop大數(shù)據(jù)分析入門(mén)讀者閱讀，也適合相關(guān)院校作為大數(shù)據(jù)分析與挖掘的教材使用。

作者簡(jiǎn)介

　　溫春水畢業(yè)于中國(guó)人民大學(xué)，獲碩士學(xué)位。歷任森途國(guó)信新工科研究院院長(zhǎng)、大唐網(wǎng)絡(luò)和三點(diǎn)一刻大數(shù)據(jù)技術(shù)總監(jiān)，負(fù)責(zé)大數(shù)據(jù)技術(shù)架構(gòu)。12年以上的IT從業(yè)經(jīng)驗(yàn)，其中從事IT培訓(xùn)超過(guò)5年，直接授課學(xué)員超過(guò)3萬(wàn)人。受邀為燕山石化和中國(guó)石油等企業(yè)完成Python及大數(shù)據(jù)技術(shù)等企業(yè)內(nèi)訓(xùn)；受聘面向哈爾濱工業(yè)大學(xué)、南開(kāi)大學(xué)、天津大學(xué)、華南農(nóng)業(yè)大學(xué)、山東科技大學(xué)、北京交通大學(xué)、西安交通大學(xué)、天津師范大學(xué)和北京航空航天大學(xué)等高校的本科生及研究生講授項(xiàng)目管理、需求分析、軟件體系設(shè)計(jì)和項(xiàng)目開(kāi)發(fā)等課程。畢潔馨亞信科技高級(jí)開(kāi)發(fā)工程師。參與過(guò)北京聯(lián)通看板中心及專線透明化建設(shè)，另外還參與過(guò)相關(guān)公司的門(mén)店客流分析平臺(tái)和分布式網(wǎng)絡(luò)爬蟲(chóng)等多個(gè)項(xiàng)目的開(kāi)發(fā)工作。目前致力于大數(shù)據(jù)和人工智能方向的前沿技術(shù)研究。

圖書(shū)目錄

前言
第1篇 Hadoop基礎(chǔ)知識(shí)
第1章初識(shí)Hadoop 2
1.1 大數(shù)據(jù)初探 2
1.1.1 大數(shù)據(jù)技術(shù) 2
1.1.2 大數(shù)據(jù)技術(shù)框架 3
1.1.3 大數(shù)據(jù)的特點(diǎn) 3
1.1.4 大數(shù)據(jù)在各個(gè)行業(yè)中的應(yīng)用 4
1.1.5 大數(shù)據(jù)計(jì)算模式 4
1.1.6 大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)的關(guān)系 4
1.2 Hadoop簡(jiǎn)介 5
1.2.1 Hadoop應(yīng)用現(xiàn)狀 6
1.2.2 Hadoop簡(jiǎn)介與意義 6
1.3 小結(jié) 6
第2章 Hadoop的安裝與配置 7
2.1 虛擬機(jī)的創(chuàng)建 7
2.2 安裝Linux系統(tǒng) 10
2.3 配置網(wǎng)絡(luò)信息 11
2.4 克隆服務(wù)器 12
2.5 SSH免密碼登錄 13
2.6 安裝和配置JDK 15
2.6.1 上傳安裝包 15
2.6.2 安裝JDK 16
2.6.3 配置環(huán)境變量 16
2.7 Hadoop環(huán)境變量配置 16
2.7.1 解壓縮Hadoop壓縮包 17
2.7.2 配置Hadoop的bin和sbin文件夾到環(huán)境變量中 17
2.7.3 修改/etc/hadoop/hadoop-env.sh 17
2.8 Hadoop分布式安裝 17
2.8.1 偽分布式安裝 17
2.8.2 完全分布式安裝 19
2.9 小結(jié) 21
第3章 Hadoop分布式文件系統(tǒng) 22
3.1 DFS介紹 22
3.1.1 什么是DFS 22
3.1.2 DFS的結(jié)構(gòu) 22
3.2 HDFS介紹 23
3.2.1 HDFS的概念及體系結(jié)構(gòu) 23
3.2.2 HDFS的設(shè)計(jì) 23
3.2.3 HDFS的優(yōu)點(diǎn)和缺點(diǎn) 24
3.2.4 HDFS的執(zhí)行原理 24
3.2.5 HDFS的核心概念 25
3.2.6 HDFS讀文件流程 27
3.2.7 HDFS寫(xiě)文件流程 28
3.2.8 Block的副本放置策略 29
3.3 Hadoop中HDFS的常用命令 30
3.3.1 對(duì)文件的操作 30
3.3.2 管理與更新 31
3.4 HDFS的應(yīng)用 31
3.4.1 基于Shell的操作 31
3.4.2 基于Java API的操作 33
3.4.3 創(chuàng)建文件夾 34
3.4.4 遞歸顯示文件 34
3.4.5 文件上傳 35
3.4.6 文件下載 35
3.5 小結(jié) 36
第4章基于Hadoop 3的HDFS高可用 37
4.1 Hadoop 3.x的發(fā)展 37
4.1.1 Hadoop 3新特性 37
4.1.2 Hadoop 3 HDFS集群架構(gòu) 38
4.2 Hadoop 3 HDFS完全分布式搭建 39
4.2.1 安裝JDK 40
4.2.2 配置JDK環(huán)境變量 40
4.2.3 配置免密碼登錄 40
4.2.4 配置IP和主機(jī)名字映射關(guān)系 41
4.2.5 SSH免密碼登錄設(shè)置 41
4.2.6 配置Hadoop 3.1.0 42
4.3 什么是HDFS高可用 47
4.3.1 HDFS高可用實(shí)現(xiàn)原理 47
4.3.2 HDFS高可用實(shí)現(xiàn) 48
4.4 搭建HDFS高可用 50
4.4.1 配置ZooKeeper 50
4.4.2 配置Hadoop配置文件 52
4.4.3 將配置文件復(fù)制到其他節(jié)點(diǎn)上 54
4.4.4 啟動(dòng)JN節(jié)點(diǎn) 54
4.4.5 格式化 55
4.4.6 復(fù)制元數(shù)據(jù)到node2節(jié)點(diǎn)上 55
4.4.7 格式化ZKFC 55
4.4.8 啟動(dòng)集群 56
4.4.9 通過(guò)瀏覽器查看集群狀態(tài) 56
4.4.10 高可用測(cè)試 57
4.5 小結(jié) 58
第2篇 Hadoop核心技術(shù)
第5章 Hadoop的分布式協(xié)調(diào)服務(wù)——ZooKeeper 60
5.1 ZooKeeper的核心概念 60
5.1.1 Session會(huì)話機(jī)制 60
5.1.2 數(shù)據(jù)節(jié)點(diǎn)、版本與Watcher的關(guān)聯(lián) 61
5.1.3 ACL策略 61
5.2 ZooKeeper的安裝與運(yùn)行 61
5.3 ZooKeeper服務(wù)器端的常用命令 63
5.4 客戶端連接ZooKeeper的相關(guān)操作 64
5.4.1 查看ZooKeeper常用命令 64
5.4.2 connect命令與ls命令 65
5.4.3 create命令——?jiǎng)?chuàng)建節(jié)點(diǎn) 65
5.4.4 get命令——獲取數(shù)據(jù)與信息 66
5.4.5 set命令——修改節(jié)點(diǎn)內(nèi)容 66
5.4.6 delete命令——?jiǎng)h除節(jié)點(diǎn) 67
5.5 使用Java API訪問(wèn)ZooKeeper 67
5.5.1 環(huán)境準(zhǔn)備與創(chuàng)建會(huì)話實(shí)例 68
5.5.2 節(jié)點(diǎn)創(chuàng)建實(shí)例 69
5.5.3 Java API訪問(wèn)ZooKeeper實(shí)例 70
5.6 小結(jié) 73
第6章分布式離線計(jì)算框架——MapReduce 74
6.1 MapReduce概述 74
6.1.1 MapReduce的特點(diǎn) 74
6.1.2 MapReduce的應(yīng)用場(chǎng)景 75
6.2 MapReduce執(zhí)行過(guò)程 76
6.2.1 單詞統(tǒng)計(jì)實(shí)例 76
6.2.2 MapReduce執(zhí)行過(guò)程 77
6.2.3 MapReduce的文件切片Split 77
6.2.4 Map過(guò)程和Reduce過(guò)程 78
6.2.5 Shuffle過(guò)程 78
6.3 MapReduce實(shí)例 79
6.3.1 WordCount本地測(cè)試實(shí)例 79
6.3.2 ETL本地測(cè)試實(shí)例 84
6.4 溫度排序?qū)嵗?86
6.4.1 時(shí)間和溫度的封裝類MyKey.Java 87
6.4.2 Map任務(wù)MyMapper.java 88
6.4.3 數(shù)據(jù)分組類MyGroup.Java 89
6.4.4 溫度排序類MySort.java 89
6.4.5 數(shù)據(jù)分區(qū)MyPartitioner.java 90
6.4.6 Reducer任務(wù)MyReducer.java 90
6.4.7 主函數(shù)RunJob.java 91
6.5 小結(jié) 94
第7章 Hadoop的集群資源管理系統(tǒng)——YARN 95
7.1 為什么要使用YARN 95
7.2 YARN的基本架構(gòu) 96
7.2.1 ResourceManager進(jìn)程 96
7.2.2 ApplicationMaster和NodeManager 97
7.3 YARN工作流程 97
7.4 YARN搭建 98
7.5 小結(jié) 100
第8章 Hadoop的數(shù)據(jù)倉(cāng)庫(kù)框架——Hive 101
8.1 Hive的理論基礎(chǔ) 101
8.1.1 什么是Hive 101
8.1.2 Hive和數(shù)據(jù)庫(kù)的異同 102
8.1.3 Hive設(shè)計(jì)的目的與應(yīng)用 104
8.1.4 Hive的運(yùn)行架構(gòu) 104
8.1.5 Hive的執(zhí)行流程 105
8.1.6 Hive服務(wù) 106
8.1.7 元數(shù)據(jù)存儲(chǔ)Metastore 106
8.1.8 Embedded模式 107
8.1.9 Local模式 108
8.1.10 Remote模式 109
8.2 Hive的配置與安裝 109
8.2.1 安裝MySQL 110
8.2.2 配置Hive 112
8.3 Hive表的操作 113
8.3.1 創(chuàng)建Hive表 114
8.3.2 導(dǎo)入數(shù)據(jù) 114
8.4 表的分區(qū)與分桶 115
8.4.1