注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機(jī)/網(wǎng)絡(luò)網(wǎng)絡(luò)與數(shù)據(jù)通信網(wǎng)絡(luò)服務(wù)企業(yè)數(shù)據(jù)湖

企業(yè)數(shù)據(jù)湖

企業(yè)數(shù)據(jù)湖

定 價:¥99.00

作 者: (印度)湯姆斯·約翰,潘卡·米斯拉
出版社: 機(jī)械工業(yè)出版社
叢編項:
標(biāo) 簽: 暫缺

ISBN: 9787111615538 出版時間: 2019-01-01 包裝: 平裝
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  本書主要分為三部分,第一部分介紹數(shù)據(jù)湖的概念、數(shù)據(jù)湖在企業(yè)中的重要性以及Lambda架構(gòu)。第二部分深入研究使用Lambda架構(gòu)構(gòu)建數(shù)據(jù)湖所需的主要技術(shù)組件,介紹流行的大數(shù)據(jù)技術(shù),如Apache Hadoop、Sqoop、Flume、Flink和Elasticsearch等。第三部分展示一些非常實用的數(shù)據(jù)湖落地建議,包括企業(yè)應(yīng)如何建立一個真實的數(shù)據(jù)湖,以及提高數(shù)據(jù)湖運營效率所需的其他技術(shù)組件。第三部分最后還詳細(xì)介紹了幾個實際的用例,以及在企業(yè)內(nèi)實現(xiàn)這些用例時應(yīng)考慮的重要方面。通過閱讀本書,你將:·使用大數(shù)據(jù)技術(shù)構(gòu)建企業(yè)級數(shù)據(jù)湖?!ふ莆誏ambda架構(gòu)的精髓,以及如何在企業(yè)內(nèi)使用它。·學(xué)習(xí)與Apache Sqoop及其功能相關(guān)的技術(shù)細(xì)節(jié)?!afka與Hadoop組件集成,用于獲取企業(yè)數(shù)據(jù)?!な褂肍lume進(jìn)行流式數(shù)據(jù)處理?!だ斫釬link與流式數(shù)據(jù)處理的關(guān)系?!adoop生態(tài)圈組件的協(xié)同使用,以及它們能帶來的好處?!な褂肊lastic Stack構(gòu)建快速、流式、高吞吐應(yīng)用?!ご_保數(shù)據(jù)攝取處理在不同數(shù)據(jù)格式配置時的一致性。

作者簡介

  湯姆斯·約翰(Tomcy John)是一名企業(yè)級Java技術(shù)專家,擁有工學(xué)學(xué)士學(xué)位,并且有超過14年多行業(yè)的開發(fā)經(jīng)驗。他目前擔(dān)任Emirates Group IT核心架構(gòu)部門的首席架構(gòu)師。在此之前,他曾在甲骨文公司、安永公司任職。他主要擅長構(gòu)建企業(yè)級應(yīng)用,并且在企業(yè)內(nèi)擔(dān)任首席導(dǎo)師和布道者,以促進(jìn)新技術(shù)融入企業(yè)標(biāo)準(zhǔn)技術(shù)棧。 潘卡·米斯拉(Pankaj Misra)是一名技術(shù)傳播者,擁有工程學(xué)士學(xué)位,并且有超過16年跨多個業(yè)務(wù)領(lǐng)域的技術(shù)經(jīng)驗。自2015年以來,他一直在Emirates Group IT任職。他擅長架構(gòu)和構(gòu)建多技術(shù)棧的解決方案及實現(xiàn)。他在印度的技術(shù)論壇上也是一名活躍分子,參與過多個海量數(shù)據(jù)、可水平擴(kuò)展的近實時數(shù)據(jù)處理和分析產(chǎn)品的構(gòu)建。

圖書目錄

譯者序 

推薦序 

關(guān)于作者 

關(guān)于技術(shù)審核人員 

前言 

第一部分 概述 

第1章 數(shù)據(jù)導(dǎo)論 2 

1.1 探索數(shù)據(jù) 3 

1.2 什么是企業(yè)數(shù)據(jù) 4 

1.3 企業(yè)數(shù)據(jù)管理 5 

1.4 大數(shù)據(jù)相關(guān)概念 6 

1.5 數(shù)據(jù)與企業(yè)的相關(guān)性 8 

1.6 數(shù)據(jù)質(zhì)量 9 

1.7 企業(yè)中數(shù)據(jù)如何存放 10 

1.7.1 內(nèi)聯(lián)網(wǎng)(企業(yè)內(nèi)部) 10 

1.7.2 互聯(lián)網(wǎng)(企業(yè)外部) 10 

1.7.3 數(shù)據(jù)持久化存儲(RDBMS或者NoSQL) 12 

1.7.4 傳統(tǒng)的數(shù)據(jù)倉庫 13 

1.7.5 文件存儲 13 

1.8 企業(yè)現(xiàn)狀 14 

1.9 企業(yè)數(shù)字化轉(zhuǎn)型 15 

1.10 數(shù)據(jù)湖用例啟示 16 

1.11 總結(jié) 17 

第2章 數(shù)據(jù)湖概念概覽 18 

2.1 什么是數(shù)據(jù)湖 18 

2.2 數(shù)據(jù)湖如何幫助企業(yè) 19 

2.3 數(shù)據(jù)湖是如何工作的 20 

2.4 數(shù)據(jù)湖與數(shù)據(jù)倉庫的區(qū)別 21 

2.5 數(shù)據(jù)湖的構(gòu)建方法 22 

2.6 Lambda架構(gòu)驅(qū)動的數(shù)據(jù)湖 22 

2.6.1 數(shù)據(jù)攝取層——攝取數(shù)據(jù)用于處理和存儲 23 

2.6.2 批處理層——批量處理已提取數(shù)據(jù) 23 

2.6.3 快速處理層——近實時數(shù)據(jù)處理 24 

2.6.4 數(shù)據(jù)存儲層——存儲所有數(shù)據(jù) 24 

2.6.5 服務(wù)層——數(shù)據(jù)交付與導(dǎo)出 25 

2.6.6 數(shù)據(jù)獲取層——從源系統(tǒng)獲取數(shù)據(jù) 25 

2.6.7 消息層——數(shù)據(jù)傳輸?shù)谋U?nbsp;26 

2.6.8 探索數(shù)據(jù)攝取層 27 

2.6.9 探索Lambda層 28 

2.7 總結(jié) 35 

第3章 Lambda架構(gòu):一種數(shù)據(jù)湖 

實現(xiàn)模式 36 

3.1 什么是Lambda架構(gòu) 36 

3.2 Lambda 架構(gòu)簡史 37 

3.3 Lambda架構(gòu)的原則 37 

3.3.1 容錯原則 38 

3.3.2 不可變數(shù)據(jù)原則 38 

3.3.3 重新計算原則 38 

3.4 Lambda架構(gòu)的組件 38 

3.4.1 批處理層 39 

3.4.2 快速處理層 41 

3.4.3 服務(wù)層 43 

3.5 Lambda架構(gòu)的完整工作原理 44 

3.6 Lambda架構(gòu)的優(yōu)勢 45 

3.7 Lambda架構(gòu)的劣勢 46 

3.8 Lambda架構(gòu)技術(shù)概覽 46 

3.9 應(yīng)用Lambda 47 

3.9.1 企業(yè)級日志分析 47 

3.9.2 獲取和分析傳感器數(shù)據(jù) 47 

3.9.3 電子郵件平臺實時統(tǒng)計 48 

3.9.4 實時賽事分析 48 

3.9.5 推薦引擎 48 

3.9.6 安全威脅分析 48 

3.9.7 多渠道用戶行為分析 48 

3.10 Lambda架構(gòu)運行范例 48 

3.11 Kappa架構(gòu) 49 

3.12 總結(jié) 50 

第4章 數(shù)據(jù)湖中的Lambda應(yīng)用 51 

4.1 Hadoop發(fā)行版本介紹 51 

4.2 影響企業(yè)大數(shù)據(jù)技術(shù)棧選擇的因素 53 

4.2.1 技術(shù)能力 53 

4.2.2 是否易于部署和維護(hù) 53 

4.2.3 集成準(zhǔn)備 53 

4.3 批處理層與數(shù)據(jù)處理 53 

4.3.1 NameNode服務(wù)器 54 

4.3.2 Secondary NameNode服務(wù)器 55 

4.3.3 YARN 55 

4.3.4 數(shù)據(jù)存儲節(jié)點 55 

4.3.5 快速處理層 56 

4.3.6 Flume用于數(shù)據(jù)獲取 57 

4.3.7 Spark Streaming 58 

4.4 服務(wù)層 62 

4.4.1 數(shù)據(jù)存儲層 62 

4.4.2 數(shù)據(jù)訪問層 63 

4.5 總結(jié) 64 

第二部分 數(shù)據(jù)湖的技術(shù)組件 

第5章 基于Apache Sqoop的批量數(shù)據(jù)獲取 68 

5.1 數(shù)據(jù)湖背景中的數(shù)據(jù)獲取 68 

5.1.1 數(shù)據(jù)獲取層 68 

5.1.2 批量數(shù)據(jù)獲取——技術(shù)路線圖 69 

5.2 為什么使用Apache Sqoop 70 

5.2.1 Sqoop簡史 71 

5.2.2 Sqoop的優(yōu)勢 71 

5.2.3 Sqoop的劣勢 72 

5.3 Sqoop的功能 72 

5.3.1 Sqoop 2的架構(gòu) 74 

5.3.2 Sqoop 1與Sqoop 2 75 

5.3.3 Sqoop的功能 77 

5.3.4 使用Sqoop導(dǎo)入數(shù)據(jù) 77 

5.3.5 使用Sqoop導(dǎo)出數(shù)據(jù) 78 

5.4 Sqoop connector 79 

5.5 Sqoop對HDFS的支持 81 

5.6 Sqoop運行范例 81 

5.6.1 安裝與配置 81 

5.6.2 數(shù)據(jù)源配置 90 

5.6.3 Sqoop配置(數(shù)據(jù)庫驅(qū)動) 91 

5.6.4 將HDFS配置為目的地 91 

5.6.5 Sqoop數(shù)據(jù)導(dǎo)入 91 

5.6.6 Sqoop數(shù)據(jù)導(dǎo)出 97 

5.6.7 Sqoop job 98 

5.6.8 Sqoop 2 99 

5.6.9 SCV用例視角中的Sqoop 102 

5.7 適合使用Sqoop的場景 103 

5.8 不適合使用Sqoop的場景 104 

5.9 實時Sqooping是否可行 104 

5.10 其他選項 104 

5.10.1 原生大數(shù)據(jù)connector 105 

5.10.2 Talend 106 

5.10.3 Pentaho Kettle(PDI——Pentaho數(shù)據(jù)集成) 106 

5.11 總結(jié) 106 

第6章 基于Apache Flume的流式數(shù)據(jù)獲取 108 

6.1 數(shù)據(jù)獲取 108 

6.1.1 什么是流式數(shù)據(jù) 109 

6.1.2 批量數(shù)據(jù)和流式數(shù)據(jù) 110 

6.1.3 流式數(shù)據(jù)獲取——技術(shù)路線圖 110 

6.1.4 什么是Flume 111 

6.1.5 Sqoop和Flume 112 

6.2 為什么使用Flume 113 

6.2.1 Flume簡史 113 

6.2.2 Flume的優(yōu)勢 113 

6.2.3 Flume的劣勢 114 

6.3 Flume的架構(gòu)原則 114 

6.4 Flume架構(gòu) 115 

6.4.1 Flume 架構(gòu)之一:分布式數(shù)據(jù)流水線 116 

6.4.2 Flume 架構(gòu)之二:扇出 117 

6.4.3 Flume 架構(gòu)之三:扇入 117 

6.4.4 Flume架構(gòu)中的3層設(shè)計 118 

6.4.5 高級Flume架構(gòu) 118 

6.4.6 Flume的可靠性級別 120 

6.5 Flume事件——流式數(shù)據(jù) 120 

6.6 Flume Agent 120 

6.7 Flume Source 122 

6.8 Flume Channel 123 

6.9 Flume Sink 125 

6.10 Flume配置 126 

6.11 Flume事務(wù)管理 127 

6.12 Flume的其他組件 128 

6.12.1 Channel Processor 128 

6.12.2 Interceptor 129 

6.12.3 Channel Selector 129 

6.12.4 Sink Group 130 

6.12.5 事

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號