注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件從零開始學(xué)Hadoop大數(shù)據(jù)分析(視頻教學(xué)版)

從零開始學(xué)Hadoop大數(shù)據(jù)分析(視頻教學(xué)版)

從零開始學(xué)Hadoop大數(shù)據(jù)分析(視頻教學(xué)版)

定 價(jià):¥89.00

作 者: 溫春水,畢潔馨 著
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787111619314 出版時(shí)間: 2019-03-01 包裝: 平裝
開本: 16開 頁數(shù): 368 字?jǐn)?shù):  

內(nèi)容簡介

  本書針對(duì)愿意加入大數(shù)據(jù)行業(yè)的初學(xué)者量身定做,以簡練風(fēng)趣的語言介紹了大數(shù)據(jù)程核心技術(shù)及相關(guān)案例。內(nèi)容包括了數(shù)據(jù)的基本概念、Hadoop的安裝與配置、HDFS、基于Hadoop3的HDFS高可用、Zookeeper、MapReduce、YARN、Sqoop、KafKa、Redis,每個(gè)知識(shí)點(diǎn)配有可運(yùn)行的案例,同時(shí)結(jié)合企業(yè)實(shí)際案例,讓讀者能夠掌握從大數(shù)據(jù)環(huán)境搭建到大數(shù)據(jù)核心技術(shù),并且進(jìn)一步熟悉企業(yè)案例的分析及開發(fā)過程,從而輕松進(jìn)入到大數(shù)據(jù)領(lǐng)域。本書實(shí)用性強(qiáng),非常適合Hadoop大數(shù)據(jù)分析入門讀者閱讀,也適合相關(guān)院校作為大數(shù)據(jù)分析與挖掘的教材使用。

作者簡介

  溫春水畢業(yè)于中國人民大學(xué),獲碩士學(xué)位。歷任森途國信新工科研究院院長、大唐網(wǎng)絡(luò)和三點(diǎn)一刻大數(shù)據(jù)技術(shù)總監(jiān),負(fù)責(zé)大數(shù)據(jù)技術(shù)架構(gòu)。12年以上的IT從業(yè)經(jīng)驗(yàn),其中從事IT培訓(xùn)超過5年,直接授課學(xué)員超過3萬人。受邀為燕山石化和中國石油等企業(yè)完成Python及大數(shù)據(jù)技術(shù)等企業(yè)內(nèi)訓(xùn);受聘面向哈爾濱工業(yè)大學(xué)、南開大學(xué)、天津大學(xué)、華南農(nóng)業(yè)大學(xué)、山東科技大學(xué)、北京交通大學(xué)、西安交通大學(xué)、天津師范大學(xué)和北京航空航天大學(xué)等高校的本科生及研究生講授項(xiàng)目管理、需求分析、軟件體系設(shè)計(jì)和項(xiàng)目開發(fā)等課程。 畢潔馨亞信科技高級(jí)開發(fā)工程師。參與過北京聯(lián)通看板中心及專線透明化建設(shè),另外還參與過相關(guān)公司的門店客流分析平臺(tái)和分布式網(wǎng)絡(luò)爬蟲等多個(gè)項(xiàng)目的開發(fā)工作。目前致力于大數(shù)據(jù)和人工智能方向的前沿技術(shù)研究。

圖書目錄

前言
第1篇 Hadoop基礎(chǔ)知識(shí)
第1章 初識(shí)Hadoop 2
1.1 大數(shù)據(jù)初探 2
1.1.1 大數(shù)據(jù)技術(shù) 2
1.1.2 大數(shù)據(jù)技術(shù)框架 3
1.1.3 大數(shù)據(jù)的特點(diǎn) 3
1.1.4 大數(shù)據(jù)在各個(gè)行業(yè)中的應(yīng)用 4
1.1.5 大數(shù)據(jù)計(jì)算模式 4
1.1.6 大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)的關(guān)系 4
1.2 Hadoop簡介 5
1.2.1 Hadoop應(yīng)用現(xiàn)狀 6
1.2.2 Hadoop簡介與意義 6
1.3 小結(jié) 6
第2章 Hadoop的安裝與配置 7
2.1 虛擬機(jī)的創(chuàng)建 7
2.2 安裝Linux系統(tǒng) 10
2.3 配置網(wǎng)絡(luò)信息 11
2.4 克隆服務(wù)器 12
2.5 SSH免密碼登錄 13
2.6 安裝和配置JDK 15
2.6.1 上傳安裝包 15
2.6.2 安裝JDK 16
2.6.3 配置環(huán)境變量 16
2.7 Hadoop環(huán)境變量配置 16
2.7.1 解壓縮Hadoop壓縮包 17
2.7.2 配置Hadoop的bin和sbin文件夾到環(huán)境變量中 17
2.7.3 修改/etc/hadoop/hadoop-env.sh 17
2.8 Hadoop分布式安裝 17
2.8.1 偽分布式安裝 17
2.8.2 完全分布式安裝 19
2.9 小結(jié) 21
第3章 Hadoop分布式文件系統(tǒng) 22
3.1 DFS介紹 22
3.1.1 什么是DFS 22
3.1.2 DFS的結(jié)構(gòu) 22
3.2 HDFS介紹 23
3.2.1 HDFS的概念及體系結(jié)構(gòu) 23
3.2.2 HDFS的設(shè)計(jì) 23
3.2.3 HDFS的優(yōu)點(diǎn)和缺點(diǎn) 24
3.2.4 HDFS的執(zhí)行原理 24
3.2.5 HDFS的核心概念 25
3.2.6 HDFS讀文件流程 27
3.2.7 HDFS寫文件流程 28
3.2.8 Block的副本放置策略 29
3.3 Hadoop中HDFS的常用命令 30
3.3.1 對(duì)文件的操作 30
3.3.2 管理與更新 31
3.4 HDFS的應(yīng)用 31
3.4.1 基于Shell的操作 31
3.4.2 基于Java API的操作 33
3.4.3 創(chuàng)建文件夾 34
3.4.4 遞歸顯示文件 34
3.4.5 文件上傳 35
3.4.6 文件下載 35
3.5 小結(jié) 36
第4章 基于Hadoop 3的HDFS高可用 37
4.1 Hadoop 3.x的發(fā)展 37
4.1.1 Hadoop 3新特性 37
4.1.2 Hadoop 3 HDFS集群架構(gòu) 38
4.2 Hadoop 3 HDFS完全分布式搭建 39
4.2.1 安裝JDK 40
4.2.2 配置JDK環(huán)境變量 40
4.2.3 配置免密碼登錄 40
4.2.4 配置IP和主機(jī)名字映射關(guān)系 41
4.2.5 SSH免密碼登錄設(shè)置 41
4.2.6 配置Hadoop 3.1.0 42
4.3 什么是HDFS高可用 47
4.3.1 HDFS高可用實(shí)現(xiàn)原理 47
4.3.2 HDFS高可用實(shí)現(xiàn) 48
4.4 搭建HDFS高可用 50
4.4.1 配置ZooKeeper 50
4.4.2 配置Hadoop配置文件 52
4.4.3 將配置文件復(fù)制到其他節(jié)點(diǎn)上 54
4.4.4 啟動(dòng)JN節(jié)點(diǎn) 54
4.4.5 格式化 55
4.4.6 復(fù)制元數(shù)據(jù)到node2節(jié)點(diǎn)上 55
4.4.7 格式化ZKFC 55
4.4.8 啟動(dòng)集群 56
4.4.9 通過瀏覽器查看集群狀態(tài) 56
4.4.10 高可用測試 57
4.5 小結(jié) 58
第2篇 Hadoop核心技術(shù)
第5章 Hadoop的分布式協(xié)調(diào)服務(wù)——ZooKeeper 60
5.1 ZooKeeper的核心概念 60
5.1.1 Session會(huì)話機(jī)制 60
5.1.2 數(shù)據(jù)節(jié)點(diǎn)、版本與Watcher的關(guān)聯(lián) 61
5.1.3 ACL策略 61
5.2 ZooKeeper的安裝與運(yùn)行 61
5.3 ZooKeeper服務(wù)器端的常用命令 63
5.4 客戶端連接ZooKeeper的相關(guān)操作 64
5.4.1 查看ZooKeeper常用命令 64
5.4.2 connect命令與ls命令 65
5.4.3 create命令——?jiǎng)?chuàng)建節(jié)點(diǎn) 65
5.4.4 get命令——獲取數(shù)據(jù)與信息 66
5.4.5 set命令——修改節(jié)點(diǎn)內(nèi)容 66
5.4.6 delete命令——?jiǎng)h除節(jié)點(diǎn) 67
5.5 使用Java API訪問ZooKeeper 67
5.5.1 環(huán)境準(zhǔn)備與創(chuàng)建會(huì)話實(shí)例 68
5.5.2 節(jié)點(diǎn)創(chuàng)建實(shí)例 69
5.5.3 Java API訪問ZooKeeper實(shí)例 70
5.6 小結(jié) 73
第6章 分布式離線計(jì)算框架——MapReduce 74
6.1 MapReduce概述 74
6.1.1 MapReduce的特點(diǎn) 74
6.1.2 MapReduce的應(yīng)用場景 75
6.2 MapReduce執(zhí)行過程 76
6.2.1 單詞統(tǒng)計(jì)實(shí)例 76
6.2.2 MapReduce執(zhí)行過程 77
6.2.3 MapReduce的文件切片Split 77
6.2.4 Map過程和Reduce過程 78
6.2.5 Shuffle過程 78
6.3 MapReduce實(shí)例 79
6.3.1 WordCount本地測試實(shí)例 79
6.3.2 ETL本地測試實(shí)例 84
6.4 溫度排序?qū)嵗?86
6.4.1 時(shí)間和溫度的封裝類MyKey.Java 87
6.4.2 Map任務(wù)MyMapper.java 88
6.4.3 數(shù)據(jù)分組類MyGroup.Java 89
6.4.4 溫度排序類MySort.java 89
6.4.5 數(shù)據(jù)分區(qū)MyPartitioner.java 90
6.4.6 Reducer任務(wù)MyReducer.java 90
6.4.7 主函數(shù)RunJob.java 91
6.5 小結(jié) 94
第7章 Hadoop的集群資源管理系統(tǒng)——YARN 95
7.1 為什么要使用YARN 95
7.2 YARN的基本架構(gòu) 96
7.2.1 ResourceManager進(jìn)程 96
7.2.2 ApplicationMaster和NodeManager 97
7.3 YARN工作流程 97
7.4 YARN搭建 98
7.5 小結(jié) 100
第8章 Hadoop的數(shù)據(jù)倉庫框架——Hive 101
8.1 Hive的理論基礎(chǔ) 101
8.1.1 什么是Hive 101
8.1.2 Hive和數(shù)據(jù)庫的異同 102
8.1.3 Hive設(shè)計(jì)的目的與應(yīng)用 104
8.1.4 Hive的運(yùn)行架構(gòu) 104
8.1.5 Hive的執(zhí)行流程 105
8.1.6 Hive服務(wù) 106
8.1.7 元數(shù)據(jù)存儲(chǔ)Metastore 106
8.1.8 Embedded模式 107
8.1.9 Local模式 108
8.1.10 Remote模式 109
8.2 Hive的配置與安裝 109
8.2.1 安裝MySQL 110
8.2.2 配置Hive 112
8.3 Hive表的操作 113
8.3.1 創(chuàng)建Hive表 114
8.3.2 導(dǎo)入數(shù)據(jù) 114
8.4 表的分區(qū)與分桶 115
8.4.1

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)