注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)構(gòu)建數(shù)據(jù)湖倉(cāng)

構(gòu)建數(shù)據(jù)湖倉(cāng)

構(gòu)建數(shù)據(jù)湖倉(cāng)

定 價(jià):¥68.00

作 者: 美 比爾·恩門,美 瑪麗·萊文斯 著;上海市靜安區(qū)國(guó)際數(shù)據(jù)管理協(xié)會(huì)譯
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買這本書可以去


ISBN: 9787302624479 出版時(shí)間: 2023-03-01 包裝: 平裝-膠訂
開本: 16開 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  在數(shù)據(jù)湖倉(cāng)的所有新增要素中,排名第一的就是可以利于數(shù)據(jù)分析和機(jī)器學(xué)習(xí)所用的分析基礎(chǔ)設(shè)施。分析基礎(chǔ)設(shè)施包括一眾大家廣為熟悉的東西,當(dāng)然也包括一些可能對(duì)大家還有些陌生或略帶新鮮感的概念。比如包括:元數(shù)據(jù)、數(shù)據(jù)血緣、 數(shù)據(jù)體量的度量 、數(shù)據(jù)創(chuàng)建的歷史記錄、數(shù)據(jù)轉(zhuǎn)換描述。 數(shù)據(jù)湖倉(cāng)的第二個(gè)新增要素,是識(shí)別和使用通用連接器。通用連接器允許合并和比較所有不同來(lái)源的數(shù)據(jù)。如果沒有通用連接器,就很難(實(shí)際上是幾乎不可能)將數(shù)據(jù)湖倉(cāng)中的不同數(shù)據(jù)關(guān)聯(lián)起來(lái)。但有了這個(gè)中西,就可以關(guān)聯(lián)任何類型的數(shù)據(jù)。 使用數(shù)據(jù)湖倉(cāng),就有可能實(shí)現(xiàn)以往任何其它方式都不可行或不可能實(shí)現(xiàn)的某種程度的數(shù)據(jù)分析和機(jī)器學(xué)習(xí)。 但與其它架構(gòu)一樣,我們需要理解數(shù)據(jù)湖倉(cāng)的架構(gòu)以及它的能力,以便于我們基于這種架構(gòu)創(chuàng)建數(shù)據(jù)分析藍(lán)圖和開展數(shù)據(jù)分析規(guī)劃。

作者簡(jiǎn)介

  胡博,國(guó)際數(shù)據(jù)管理協(xié)會(huì)(DAMA)中國(guó)理事,國(guó)家重點(diǎn)研發(fā)計(jì)劃課題負(fù)責(zé)人。發(fā)表過(guò)學(xué)術(shù)論文20余篇,在云平臺(tái)、數(shù)據(jù)中臺(tái)等方面授權(quán)國(guó)家發(fā)明專利12項(xiàng);是中國(guó)計(jì)算機(jī)學(xué)會(huì)高級(jí)會(huì)員、中國(guó)計(jì)算機(jī)協(xié)會(huì)服務(wù)計(jì)算專委會(huì)執(zhí)行委員、SCI期刊IJWSR 執(zhí)行主編、華中農(nóng)業(yè)大學(xué)、深圳大學(xué)、武漢科技大學(xué)和海南師范大學(xué)碩士生導(dǎo)師。

圖書目錄

引言
第一章向數(shù)據(jù)湖倉(cāng)演進(jìn)
1.技術(shù)的演進(jìn)3
2.組織內(nèi)的全部數(shù)據(jù)8
3.商業(yè)價(jià)值在哪里?12
4.數(shù)據(jù)湖13
5.當(dāng)前數(shù)據(jù)架構(gòu)的挑戰(zhàn)14
6.數(shù)據(jù)湖倉(cāng)的出現(xiàn)15
第二章數(shù)據(jù)科學(xué)家和終端用戶
1.數(shù)據(jù)湖20
2.分析基礎(chǔ)設(shè)施21
3.不同的受眾21
4.分析工具不同22
5.分析目的不同23
6.分析方法不同24
7.數(shù)據(jù)類型不同24
第三章數(shù)據(jù)湖倉(cāng)中的不同類型數(shù)據(jù)
1.數(shù)據(jù)的類型28
2.不同數(shù)據(jù)的容量31
3.跨越不同類型數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)32
4.基于訪問(wèn)概率對(duì)數(shù)據(jù)進(jìn)行分片33
5.模擬和物聯(lián)網(wǎng)環(huán)境中的關(guān)聯(lián)數(shù)據(jù)33
6.分析基礎(chǔ)設(shè)施35
第四章開放的湖倉(cāng)環(huán)境
1.開放系統(tǒng)的演進(jìn)38
2.與時(shí)俱進(jìn)的創(chuàng)新39
3.建立在開放、標(biāo)準(zhǔn)文件格式之上的非結(jié)構(gòu)化湖倉(cāng)39
4.開源數(shù)據(jù)湖倉(cāng)軟件40
5.數(shù)據(jù)湖倉(cāng)提供超越SQL的開放API41
6.數(shù)據(jù)湖倉(cāng)支持開放數(shù)據(jù)共享42
7.數(shù)據(jù)湖倉(cāng)支持開放數(shù)據(jù)探索43
8.數(shù)據(jù)湖倉(cāng)通過(guò)開放數(shù)據(jù)目錄簡(jiǎn)化數(shù)據(jù)發(fā)現(xiàn)44
9.利用云原生架構(gòu)的數(shù)據(jù)湖倉(cāng)45
10.向開放的數(shù)據(jù)湖倉(cāng)演進(jìn)46
第五章機(jī)器學(xué)習(xí)和數(shù)據(jù)湖倉(cāng)
1.機(jī)器學(xué)習(xí)47
2.機(jī)器學(xué)習(xí)需要湖倉(cāng)提供什么?48
3.從數(shù)據(jù)中挖掘出新價(jià)值48
4.解決這個(gè)難題48
5.非結(jié)構(gòu)化數(shù)據(jù)問(wèn)題49
6.開源的重要性51
7.發(fā)揮云的彈性優(yōu)勢(shì)51
8.為數(shù)據(jù)平臺(tái)設(shè)計(jì)“MLOps”52
9.案例:運(yùn)用機(jī)器學(xué)習(xí)對(duì)胸透X光片進(jìn)行分類53
10.數(shù)據(jù)湖倉(cāng)的非結(jié)構(gòu)化組件的演進(jìn)55
第六章數(shù)據(jù)湖倉(cāng)中的分析基礎(chǔ)設(shè)施
1.元數(shù)據(jù)58
2.數(shù)據(jù)模型59
3.數(shù)據(jù)質(zhì)量60
4.ETL61
5.文本ETL62
6.分類標(biāo)準(zhǔn)62
7.數(shù)據(jù)體量63
8.數(shù)據(jù)血緣64
9.KPI65
10.數(shù)據(jù)的粒度66
11.事務(wù)66
12.鍵66
13.處理計(jì)劃67
14.匯總數(shù)據(jù)67
15.最低要求68
第七章數(shù)據(jù)湖倉(cāng)中的數(shù)據(jù)融合
1.湖倉(cāng)和數(shù)據(jù)湖倉(cāng)69
2.數(shù)據(jù)的源頭70
3.不同類型的分析70
4.通用標(biāo)識(shí)符72
5.結(jié)構(gòu)化標(biāo)識(shí)符72
6.重復(fù)數(shù)據(jù)73
7.文本環(huán)境中的標(biāo)識(shí)符74
8.文本數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)的融合76
9.匹配的重要性81
第八章跨數(shù)據(jù)湖倉(cāng)架構(gòu)的分析類型
1.已知查詢83
2.啟發(fā)式分析85
第九章數(shù)據(jù)湖倉(cāng)倉(cāng)務(wù)管理
1.數(shù)據(jù)集成和互操作92
2.數(shù)據(jù)湖倉(cāng)的主數(shù)據(jù)及參考數(shù)據(jù)94
3.數(shù)據(jù)湖倉(cāng)的隱私、保密和數(shù)據(jù)保護(hù)96
4.數(shù)據(jù)湖倉(cāng)中面向未來(lái)的數(shù)據(jù)97
5.面向未來(lái)的數(shù)據(jù)的五個(gè)階段101
6.數(shù)據(jù)湖倉(cāng)的例行維護(hù)108
第十章可視化
1.將數(shù)據(jù)轉(zhuǎn)化為信息110
2.什么是數(shù)據(jù)可視化?為什么它很重要?112
3.數(shù)據(jù)可視化、數(shù)據(jù)分析和數(shù)據(jù)解釋之間的差異113
4.數(shù)據(jù)可視化的優(yōu)勢(shì)115
第十一章數(shù)據(jù)湖倉(cāng)架構(gòu)中的數(shù)據(jù)血緣
1.計(jì)算鏈124
2.數(shù)據(jù)選取126
3.算法差異126
4.文本數(shù)據(jù)血緣127
5.其他非結(jié)構(gòu)化環(huán)境的數(shù)據(jù)血緣128
6.數(shù)據(jù)血緣129
第十二章數(shù)據(jù)湖倉(cāng)架構(gòu)中的訪問(wèn)概率
1.數(shù)據(jù)的高效排列131
2.數(shù)據(jù)的訪問(wèn)概率131
3.數(shù)據(jù)湖倉(cāng)中不同的數(shù)據(jù)類型133
4.數(shù)據(jù)量的相對(duì)差異133
5.數(shù)據(jù)分片的優(yōu)勢(shì)134
6.使用大容量存儲(chǔ)134
7.附加索引135
第十三章跨越鴻溝
1.合并數(shù)據(jù)136
2.不同種類的數(shù)據(jù)137
3.不同的業(yè)務(wù)需求137
4.跨越鴻溝137
第十四章數(shù)據(jù)湖倉(cāng)中的海量數(shù)據(jù)
1.海量數(shù)據(jù)的分布145
2.高性能、大容量的數(shù)據(jù)存儲(chǔ)146
3.附加索引和摘要146
4.周期性的數(shù)據(jù)過(guò)濾148
5.數(shù)據(jù)標(biāo)記法148
6.分離文本和數(shù)據(jù)庫(kù)149
7.歸檔存儲(chǔ)149
8.監(jiān)測(cè)活動(dòng)150
9.并行處理151
第十五章數(shù)據(jù)治理與數(shù)據(jù)湖倉(cāng)
1.數(shù)據(jù)治理的目的152
2.數(shù)據(jù)生命周期管理154
3.數(shù)據(jù)質(zhì)量管理156
4.元數(shù)據(jù)管理的重要性157
5.隨著時(shí)間推移的數(shù)據(jù)治理157
6.數(shù)據(jù)治理的類型158
7.貫穿數(shù)據(jù)湖倉(cāng)的數(shù)據(jù)治理159
8.數(shù)據(jù)治理的注意事項(xiàng)160
第十六章現(xiàn)代數(shù)據(jù)倉(cāng)庫(kù)
1.應(yīng)用程序的普及162
2.信息孤島163
3.復(fù)雜網(wǎng)絡(luò)環(huán)境164
4.數(shù)據(jù)倉(cāng)庫(kù)165
5.數(shù)據(jù)倉(cāng)庫(kù)的定義166
6.歷史數(shù)據(jù)167
7.關(guān)系模型167
8.數(shù)據(jù)的本地形式168
9.集成數(shù)據(jù)的需要169
10.時(shí)過(guò)境遷170
11.當(dāng)今世界170
12.不同體量的數(shù)據(jù)172
13.數(shù)據(jù)與業(yè)務(wù)的關(guān)系173
14.將數(shù)據(jù)納入數(shù)據(jù)倉(cāng)庫(kù)173
15.現(xiàn)代數(shù)據(jù)倉(cāng)庫(kù)174
16.什么時(shí)候我們不再需要數(shù)據(jù)倉(cāng)庫(kù)?175
17.數(shù)據(jù)湖176
18.以數(shù)據(jù)倉(cāng)庫(kù)作為基礎(chǔ)177
19.數(shù)據(jù)堆棧178

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)