注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)家庭與辦公軟件從零開始學(xué)Hadoop大數(shù)據(jù)分析(視頻教學(xué)版)

從零開始學(xué)Hadoop大數(shù)據(jù)分析(視頻教學(xué)版)

從零開始學(xué)Hadoop大數(shù)據(jù)分析(視頻教學(xué)版)

定 價:¥89.00

作 者: 溫春水,畢潔馨 著
出版社: 機械工業(yè)出版社
叢編項:
標(biāo) 簽: 暫缺

ISBN: 9787111619314 出版時間: 2019-03-01 包裝: 平裝
開本: 16開 頁數(shù): 368 字數(shù):  

內(nèi)容簡介

  本書針對愿意加入大數(shù)據(jù)行業(yè)的初學(xué)者量身定做,以簡練風(fēng)趣的語言介紹了大數(shù)據(jù)程核心技術(shù)及相關(guān)案例。內(nèi)容包括了數(shù)據(jù)的基本概念、Hadoop的安裝與配置、HDFS、基于Hadoop3的HDFS高可用、Zookeeper、MapReduce、YARN、Sqoop、KafKa、Redis,每個知識點配有可運行的案例,同時結(jié)合企業(yè)實際案例,讓讀者能夠掌握從大數(shù)據(jù)環(huán)境搭建到大數(shù)據(jù)核心技術(shù),并且進一步熟悉企業(yè)案例的分析及開發(fā)過程,從而輕松進入到大數(shù)據(jù)領(lǐng)域。本書實用性強,非常適合Hadoop大數(shù)據(jù)分析入門讀者閱讀,也適合相關(guān)院校作為大數(shù)據(jù)分析與挖掘的教材使用。

作者簡介

  溫春水畢業(yè)于中國人民大學(xué),獲碩士學(xué)位。歷任森途國信新工科研究院院長、大唐網(wǎng)絡(luò)和三點一刻大數(shù)據(jù)技術(shù)總監(jiān),負責(zé)大數(shù)據(jù)技術(shù)架構(gòu)。12年以上的IT從業(yè)經(jīng)驗,其中從事IT培訓(xùn)超過5年,直接授課學(xué)員超過3萬人。受邀為燕山石化和中國石油等企業(yè)完成Python及大數(shù)據(jù)技術(shù)等企業(yè)內(nèi)訓(xùn);受聘面向哈爾濱工業(yè)大學(xué)、南開大學(xué)、天津大學(xué)、華南農(nóng)業(yè)大學(xué)、山東科技大學(xué)、北京交通大學(xué)、西安交通大學(xué)、天津師范大學(xué)和北京航空航天大學(xué)等高校的本科生及研究生講授項目管理、需求分析、軟件體系設(shè)計和項目開發(fā)等課程。 畢潔馨亞信科技高級開發(fā)工程師。參與過北京聯(lián)通看板中心及專線透明化建設(shè),另外還參與過相關(guān)公司的門店客流分析平臺和分布式網(wǎng)絡(luò)爬蟲等多個項目的開發(fā)工作。目前致力于大數(shù)據(jù)和人工智能方向的前沿技術(shù)研究。

圖書目錄

前言
第1篇 Hadoop基礎(chǔ)知識
第1章 初識Hadoop 2
1.1 大數(shù)據(jù)初探 2
1.1.1 大數(shù)據(jù)技術(shù) 2
1.1.2 大數(shù)據(jù)技術(shù)框架 3
1.1.3 大數(shù)據(jù)的特點 3
1.1.4 大數(shù)據(jù)在各個行業(yè)中的應(yīng)用 4
1.1.5 大數(shù)據(jù)計算模式 4
1.1.6 大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關(guān)系 4
1.2 Hadoop簡介 5
1.2.1 Hadoop應(yīng)用現(xiàn)狀 6
1.2.2 Hadoop簡介與意義 6
1.3 小結(jié) 6
第2章 Hadoop的安裝與配置 7
2.1 虛擬機的創(chuàng)建 7
2.2 安裝Linux系統(tǒng) 10
2.3 配置網(wǎng)絡(luò)信息 11
2.4 克隆服務(wù)器 12
2.5 SSH免密碼登錄 13
2.6 安裝和配置JDK 15
2.6.1 上傳安裝包 15
2.6.2 安裝JDK 16
2.6.3 配置環(huán)境變量 16
2.7 Hadoop環(huán)境變量配置 16
2.7.1 解壓縮Hadoop壓縮包 17
2.7.2 配置Hadoop的bin和sbin文件夾到環(huán)境變量中 17
2.7.3 修改/etc/hadoop/hadoop-env.sh 17
2.8 Hadoop分布式安裝 17
2.8.1 偽分布式安裝 17
2.8.2 完全分布式安裝 19
2.9 小結(jié) 21
第3章 Hadoop分布式文件系統(tǒng) 22
3.1 DFS介紹 22
3.1.1 什么是DFS 22
3.1.2 DFS的結(jié)構(gòu) 22
3.2 HDFS介紹 23
3.2.1 HDFS的概念及體系結(jié)構(gòu) 23
3.2.2 HDFS的設(shè)計 23
3.2.3 HDFS的優(yōu)點和缺點 24
3.2.4 HDFS的執(zhí)行原理 24
3.2.5 HDFS的核心概念 25
3.2.6 HDFS讀文件流程 27
3.2.7 HDFS寫文件流程 28
3.2.8 Block的副本放置策略 29
3.3 Hadoop中HDFS的常用命令 30
3.3.1 對文件的操作 30
3.3.2 管理與更新 31
3.4 HDFS的應(yīng)用 31
3.4.1 基于Shell的操作 31
3.4.2 基于Java API的操作 33
3.4.3 創(chuàng)建文件夾 34
3.4.4 遞歸顯示文件 34
3.4.5 文件上傳 35
3.4.6 文件下載 35
3.5 小結(jié) 36
第4章 基于Hadoop 3的HDFS高可用 37
4.1 Hadoop 3.x的發(fā)展 37
4.1.1 Hadoop 3新特性 37
4.1.2 Hadoop 3 HDFS集群架構(gòu) 38
4.2 Hadoop 3 HDFS完全分布式搭建 39
4.2.1 安裝JDK 40
4.2.2 配置JDK環(huán)境變量 40
4.2.3 配置免密碼登錄 40
4.2.4 配置IP和主機名字映射關(guān)系 41
4.2.5 SSH免密碼登錄設(shè)置 41
4.2.6 配置Hadoop 3.1.0 42
4.3 什么是HDFS高可用 47
4.3.1 HDFS高可用實現(xiàn)原理 47
4.3.2 HDFS高可用實現(xiàn) 48
4.4 搭建HDFS高可用 50
4.4.1 配置ZooKeeper 50
4.4.2 配置Hadoop配置文件 52
4.4.3 將配置文件復(fù)制到其他節(jié)點上 54
4.4.4 啟動JN節(jié)點 54
4.4.5 格式化 55
4.4.6 復(fù)制元數(shù)據(jù)到node2節(jié)點上 55
4.4.7 格式化ZKFC 55
4.4.8 啟動集群 56
4.4.9 通過瀏覽器查看集群狀態(tài) 56
4.4.10 高可用測試 57
4.5 小結(jié) 58
第2篇 Hadoop核心技術(shù)
第5章 Hadoop的分布式協(xié)調(diào)服務(wù)——ZooKeeper 60
5.1 ZooKeeper的核心概念 60
5.1.1 Session會話機制 60
5.1.2 數(shù)據(jù)節(jié)點、版本與Watcher的關(guān)聯(lián) 61
5.1.3 ACL策略 61
5.2 ZooKeeper的安裝與運行 61
5.3 ZooKeeper服務(wù)器端的常用命令 63
5.4 客戶端連接ZooKeeper的相關(guān)操作 64
5.4.1 查看ZooKeeper常用命令 64
5.4.2 connect命令與ls命令 65
5.4.3 create命令——創(chuàng)建節(jié)點 65
5.4.4 get命令——獲取數(shù)據(jù)與信息 66
5.4.5 set命令——修改節(jié)點內(nèi)容 66
5.4.6 delete命令——刪除節(jié)點 67
5.5 使用Java API訪問ZooKeeper 67
5.5.1 環(huán)境準(zhǔn)備與創(chuàng)建會話實例 68
5.5.2 節(jié)點創(chuàng)建實例 69
5.5.3 Java API訪問ZooKeeper實例 70
5.6 小結(jié) 73
第6章 分布式離線計算框架——MapReduce 74
6.1 MapReduce概述 74
6.1.1 MapReduce的特點 74
6.1.2 MapReduce的應(yīng)用場景 75
6.2 MapReduce執(zhí)行過程 76
6.2.1 單詞統(tǒng)計實例 76
6.2.2 MapReduce執(zhí)行過程 77
6.2.3 MapReduce的文件切片Split 77
6.2.4 Map過程和Reduce過程 78
6.2.5 Shuffle過程 78
6.3 MapReduce實例 79
6.3.1 WordCount本地測試實例 79
6.3.2 ETL本地測試實例 84
6.4 溫度排序?qū)嵗?86
6.4.1 時間和溫度的封裝類MyKey.Java 87
6.4.2 Map任務(wù)MyMapper.java 88
6.4.3 數(shù)據(jù)分組類MyGroup.Java 89
6.4.4 溫度排序類MySort.java 89
6.4.5 數(shù)據(jù)分區(qū)MyPartitioner.java 90
6.4.6 Reducer任務(wù)MyReducer.java 90
6.4.7 主函數(shù)RunJob.java 91
6.5 小結(jié) 94
第7章 Hadoop的集群資源管理系統(tǒng)——YARN 95
7.1 為什么要使用YARN 95
7.2 YARN的基本架構(gòu) 96
7.2.1 ResourceManager進程 96
7.2.2 ApplicationMaster和NodeManager 97
7.3 YARN工作流程 97
7.4 YARN搭建 98
7.5 小結(jié) 100
第8章 Hadoop的數(shù)據(jù)倉庫框架——Hive 101
8.1 Hive的理論基礎(chǔ) 101
8.1.1 什么是Hive 101
8.1.2 Hive和數(shù)據(jù)庫的異同 102
8.1.3 Hive設(shè)計的目的與應(yīng)用 104
8.1.4 Hive的運行架構(gòu) 104
8.1.5 Hive的執(zhí)行流程 105
8.1.6 Hive服務(wù) 106
8.1.7 元數(shù)據(jù)存儲Metastore 106
8.1.8 Embedded模式 107
8.1.9 Local模式 108
8.1.10 Remote模式 109
8.2 Hive的配置與安裝 109
8.2.1 安裝MySQL 110
8.2.2 配置Hive 112
8.3 Hive表的操作 113
8.3.1 創(chuàng)建Hive表 114
8.3.2 導(dǎo)入數(shù)據(jù) 114
8.4 表的分區(qū)與分桶 115
8.4.1

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號