注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)家庭與辦公軟件Greenplum:從大數(shù)據(jù)戰(zhàn)略到實現(xiàn)

Greenplum:從大數(shù)據(jù)戰(zhàn)略到實現(xiàn)

Greenplum:從大數(shù)據(jù)戰(zhàn)略到實現(xiàn)

定 價:¥119.00

作 者: 馮雷,姚延棟,高小明,楊瑜 著
出版社: 機械工業(yè)出版社
叢編項: 大數(shù)據(jù)技術(shù)叢書
標(biāo) 簽: 暫缺

ISBN: 9787111632160 出版時間: 2019-08-01 包裝: 平裝
開本: 16開 頁數(shù): 字數(shù):  

內(nèi)容簡介

  這是一本系統(tǒng)剖析Greenplum開源大數(shù)據(jù)平臺的書籍,也是大數(shù)據(jù)戰(zhàn)略制定與落地的實戰(zhàn)型指導(dǎo)書! 本書圍繞數(shù)字原生和云計算、大數(shù)據(jù)、人工智能驅(qū)動的企業(yè)數(shù)字化轉(zhuǎn)型的核心訴求,從商業(yè)和技術(shù)實戰(zhàn)視角分享了業(yè)界領(lǐng)先企業(yè)大數(shù)據(jù)戰(zhàn)略的深刻思考,并提供了大數(shù)據(jù)戰(zhàn)略從制定到落地的全面指導(dǎo)。既有高階數(shù)字化戰(zhàn)略高度對大數(shù)據(jù)的解讀,又有技術(shù)實戰(zhàn)角度對使用 Greenplum 大數(shù)據(jù)和機器學(xué)習(xí)平臺實現(xiàn)大數(shù)據(jù)戰(zhàn)略的實踐指南。 本書作者來自Greenplum 核心研發(fā)團隊,致力于以開源、開放的理念和先進的技術(shù)推進大數(shù)據(jù)產(chǎn)業(yè)生態(tài),助力企業(yè)以更低的成本、更高的效率實現(xiàn)數(shù)字化轉(zhuǎn)型,并基于Greenplum 開源社區(qū)培養(yǎng)大數(shù)據(jù)產(chǎn)業(yè)更多人才。 本書分為四個部分。 ● 第一部分介紹大數(shù)據(jù)戰(zhàn)略。其中,第 1 章將分享作者對于人工智能、大數(shù)據(jù)和云計算之間關(guān)系的理解以及對人和人工智能的思考。第 2 章將介紹進取型企業(yè)為什么需要大數(shù)據(jù)戰(zhàn)略以及如何建立大數(shù)據(jù)戰(zhàn)略。 ● 第二部分介紹大數(shù)據(jù)平臺。其中,第 3 章將以數(shù)據(jù)平臺演進歷史和未來趨勢為主題,描述三次整合的背景及影響,介紹選擇大數(shù)據(jù)平臺需要考慮的因素,以及為什么Greenplum 是理想的大數(shù)據(jù)平臺。第 4 章將介紹 Greenplum 數(shù)據(jù)庫快速入門指南。第 5章將介紹 Greenplum 架構(gòu)的主要特點和核心引擎。第 6 章將介紹數(shù)據(jù)加載、數(shù)據(jù)聯(lián)邦和數(shù)據(jù)虛擬化。第 7 章將介紹 Greenplum 的資源管理以及對混合負載的支持。 ● 第三部分介紹機器學(xué)習(xí)。其中,第 8 章介紹 Greenplum 的各種過程化編程語言(用戶自定義函數(shù)),用戶可以使用 Python、R、Java 等實現(xiàn)用戶自定義函數(shù),還可以通過容器化技術(shù)實現(xiàn)自定義函數(shù)的安全性和隔離性。第 9 章將介紹 Greenplum 內(nèi)建的機器學(xué)習(xí)庫 MADlib,數(shù)據(jù)科學(xué)家可以使用內(nèi)建的 50 多種機器學(xué)習(xí)算法用 SQL 對數(shù)據(jù)進行高級分析,并介紹如何擴展 MADlib 以實現(xiàn)新算法。第 10 章和第 11 章將分別介紹Greenplum 如何對文本數(shù)據(jù)和時空數(shù)據(jù)(GIS)進行存儲、計算和分析。第 12 章將介紹Greenplum 豐富的圖計算能力。 ● 第四部分介紹運維管理和數(shù)據(jù)遷移。其中,第 13 章會介紹各種監(jiān)控和管理工具及相關(guān)企業(yè)級產(chǎn)品。第 14 章介紹數(shù)據(jù)庫備份和恢復(fù)。第 15 章和第 16 章將分別介紹如何從Oracle 和 Teradta 遷移到 Greenplum。

作者簡介

  馮雷(Ray Feng)Pivotal中國常務(wù)董事(Managing Director)兼研發(fā)中心總經(jīng)理。Pivotal中國成立至今,馮雷主持了近十億人民幣投資的中國運營和研發(fā)體系。作為Pivotal全球產(chǎn)品關(guān)鍵領(lǐng)導(dǎo)人,為Pivotal公司的數(shù)字化理念建立及其對應(yīng)的Cloud Foundry和Greenplum產(chǎn)品提供戰(zhàn)略輸入。馮雷于2010年從美國硅谷歸國,在世界500強公司EMC旗下組建了Pivotal中國。在歸國之前,馮雷曾在500強企業(yè)甲骨文(Oracle)總部從事云計算產(chǎn)品研發(fā)。作為云計算早的一批從業(yè)人員,幫助甲骨文云計算資源調(diào)度領(lǐng)域成為意見領(lǐng)袖。擁有多項云計算專利。姚延棟Pivotal中國研發(fā)中心副總裁,在Pivotal公司全球范圍內(nèi)為Greenplum技術(shù)發(fā)展路線提供戰(zhàn)略輸入。聯(lián)合創(chuàng)建了Pivotal中國研發(fā)中心,發(fā)起了Greenplum中國開源社區(qū),奠定了包括阿里云、騰訊云和百度云在內(nèi)的廣大開源Greenplum用戶群。在Pivotal中國招募并建設(shè)了Greenplum和HAWQ團隊成為大數(shù)據(jù)和機器學(xué)習(xí)的意見領(lǐng)袖,培養(yǎng)團隊成員同時成為Apache和Greenplum代碼提交者。在創(chuàng)建Greenplum/Pivotal中國之前, 曾在Sun Microsystem 與 Symantec 系統(tǒng)和存儲部門工作多年。擁有多項國內(nèi)外云計算和大數(shù)據(jù)專利。 高小明Pivotal中國研發(fā)中心Greenplum產(chǎn)品總監(jiān),先后參與和負責(zé)數(shù)據(jù)分析協(xié)作平臺Chorus、開源PaaS云平臺Cloud Foundry、MPP數(shù)據(jù)庫Greenplum等產(chǎn)品的開發(fā)、運維和技術(shù)推廣。目前著重關(guān)注PaaS云平臺與大數(shù)據(jù)平臺支撐下的數(shù)字化轉(zhuǎn)型、微服務(wù)架構(gòu)以及容器化與混合負載給數(shù)據(jù)產(chǎn)品帶來的機遇和挑戰(zhàn)。 楊瑜Pivotal中國研發(fā)中心Greenplum工程技術(shù)總監(jiān),長期從事 Greenplum 內(nèi)核的研發(fā)和管理工作,先后參與和負責(zé)基于Greenplum內(nèi)核的機器學(xué)習(xí)庫MADlib的研發(fā)、Greenplum 內(nèi)核和PostgreSQL內(nèi)核持續(xù)歸并等工作,并參與組建Greenplum文本挖掘引擎GPText團隊,有豐富的一線內(nèi)核研發(fā)經(jīng)驗。

圖書目錄


前 言
部分 大數(shù)據(jù)戰(zhàn)略
第1章 ABC:人工智能、大數(shù)據(jù)和云計算  2
1.1 再談云計算  2
1.1.1 云計算由南向轉(zhuǎn)為北向  2
1.1.2 P層云的精細化發(fā)展  3
1.1.3 大數(shù)據(jù)系統(tǒng)在云中部署不斷朝南上移  4
1.2 大數(shù)據(jù)  5
1.2.1 從CRUD到CRAP  5
1.2.2 MPP(大規(guī)模并行計算)  7
1.2.3 大數(shù)據(jù)系統(tǒng)  8
1.2.4 當(dāng)大數(shù)據(jù)遇到云計算  10
1.3 人工智能  11
1.3.1 模型化方法  12
1.3.2 AI的發(fā)展史  14
1.3.3 對AI應(yīng)用的正確預(yù)期  15
1.4 ABC之間的關(guān)系  16
1.5 AI和人  18
1.5.1 經(jīng)驗與邏輯  18
1.5.2 公理化的邏輯系統(tǒng)  21
1.5.3 圖靈機和可計算數(shù)  25
1.5.4 認知邊界上的考量  28
第2章 建立基于大數(shù)據(jù)的高階數(shù)字化戰(zhàn)略  32
2.1 基于云原生應(yīng)用的數(shù)字化戰(zhàn)略  32
2.2 大數(shù)據(jù)和AI:企業(yè)未來的終極
 競爭點  34
2.3 大數(shù)據(jù)戰(zhàn)略的落地  36
2.3.1 大數(shù)據(jù)和AI人才  36
2.3.2 AI驅(qū)動的開發(fā)方法和文化  37
2.3.3 大數(shù)據(jù)基礎(chǔ)設(shè)施的建設(shè)  39
2.4 大數(shù)據(jù)和AI的展望  41
第二部分 大數(shù)據(jù)平臺
第3章 數(shù)據(jù)處理平臺的演進  45
3.1 前數(shù)據(jù)處理時代  45
3.2 早期的電子數(shù)據(jù)處理  47
3.2.1 電子計算機的出現(xiàn)  47
3.2.2 軟件  47
3.3 數(shù)據(jù)庫  49
3.3.1 數(shù)據(jù)模型  50
3.3.2 數(shù)據(jù)獨立性和高級數(shù)據(jù)處理語言  54
3.3.3 數(shù)據(jù)保護  57
3.3.4 數(shù)據(jù)庫早期發(fā)展過程中的困境  57
3.4 NoSQL數(shù)據(jù)庫  58
3.4.1 NoSQL出現(xiàn)的背景  58
3.4.2 NoSQL產(chǎn)品的共性  60
3.4.3 NoSQL的分類  61
3.5 SQL數(shù)據(jù)庫的回歸  62
3.5.1 NoSQL與SQL的融合  62
3.5.2 Hadoop不等于大數(shù)據(jù)  63
3.5.3 SQL從未離開  64
3.6 集成數(shù)據(jù)處理和分析平臺  65
3.6.1 數(shù)據(jù)類型  65
3.6.2 業(yè)務(wù)場景  66
3.6.3 集中還是分散  67
3.7 數(shù)據(jù)平臺的選型  68
3.8 小結(jié)  69
第4章 Greenplum數(shù)據(jù)庫快速入門  72
4.1 Greenplum數(shù)據(jù)庫的發(fā)展和現(xiàn)狀  72
4.2 Greenplum數(shù)據(jù)庫的特性  73
4.3 Greenplum數(shù)據(jù)庫的組成  75
4.4 Greenplum數(shù)據(jù)庫的安裝與部署  76
4.4.1 準備工作  76
4.4.2 安裝Greenplum  77
4.4.3 初始化Greenplum數(shù)據(jù)庫  80
4.5 Greenplum數(shù)據(jù)庫的常用操作  82
4.6 Greenplum數(shù)據(jù)庫的常用命令  83
4.6.1 gpstart  83
4.6.2 gpstop  83
4.6.3 gpstate  83
4.6.4 gpactivatestandby  84
4.6.5 gpconfig  84
4.6.6 gpdeletesystem  84
4.7 小結(jié)  85
第5章 Greenplum的架構(gòu)和核心引擎  86
5.1 Greenplum的架構(gòu)  86
5.1.1 Greenplum Master  87
5.1.2 Greenplum Segment  87
5.1.3 Greenplum Interconnect  87
5.1.4 Greenplum Standby Master  87
5.1.5 Greenplum Mirror Segment  88
5.2 Greenplum查詢計劃  88
5.2.1 單機查詢計劃  89
5.2.2 并行查詢計劃  90
5.3 Greenplum數(shù)據(jù)庫查詢處理的過程  95
5.3.1 Greenplum數(shù)據(jù)庫的主要功能組件  95
5.3.2 Greenplum數(shù)據(jù)庫查詢的執(zhí)行流程  96
5.4 小結(jié)  97
第6章 從ETL到數(shù)據(jù)聯(lián)邦和數(shù)據(jù)虛擬化  98
6.1 Greenplum中的ETL  99
6.1.1 PostgreSQL的ETL工具箱  99
6.1.2 GPLOAD  100
6.2 Greenplum的數(shù)據(jù)聯(lián)邦  104
6.2.1 dblink簡介  104
6.2.2 外部表  107
6.2.3 GPFDIST外部表  109
6.2.4 可執(zhí)行外部表  119
6.2.5 Greenplum的S3外部表  120
6.2.6 GPHDFS外部表  127
6.2.7 Spark連接器  129
6.2.8 Gemfire連接器  129
6.3 Greenplum的數(shù)據(jù)虛擬化框架  130
6.3.1 PXF的架構(gòu)  130
6.3.2 PXF的環(huán)境配置  131
6.3.3 GPHDFS與PXF比較  132
6.4 小結(jié)  133
第7章 混合負載和資源管理  134
7.1 混合負載的機遇和挑戰(zhàn)  134
7.2 混合負載的業(yè)務(wù)和技術(shù)要求  136
7.3 資源管理  139
7.4 并發(fā)管理  145
7.5 小結(jié)  146
第三部分 機器學(xué)習(xí)與數(shù)據(jù)分析
第8章 Greenplum中的過程化編程語言  149
8.1 PL/Python  150
8.1.1 PL/Python簡介  150
8.1.2 受信任的過程化編程語言  151
8.1.3 安裝Python包  152
8.1.4 安裝Greenplum數(shù)據(jù)計算Python包集合  153
8.1.5 類型轉(zhuǎn)換  153
8.1.6 PL/Python函數(shù)中的數(shù)據(jù)共享  154
8.2 PL/R  155
8.2.1 PL/R簡介  156
8.2.2 安裝R包  158
8.2.3 安裝Greenplum數(shù)據(jù)計算R包集合  158
8.3 PL/Container  158
8.3.1 PL/Container簡介  159
8.3.2 一個簡單的例子  159
8.3.3 PL/Container的基本操作方法  162
8.3.4 PL/Container實踐總結(jié)  166
8.3.5 關(guān)于PL/Container的開發(fā)  167
8.4 小結(jié)  167
第9章 MADlib 機器學(xué)習(xí)庫  168
9.1 MADlib入門  168
9.1.1 MADlib簡介  168
9.1.2 MADlib的特點  169
9.1.3 MADlib與其他機器學(xué)習(xí)算法庫的比較  172
9.1.4 MADlib的快速安裝  173
9.2 MADlib的架構(gòu)  174
9.2.1 SQL用戶接口  174
9.2.2 Python驅(qū)動函數(shù)  175
9.2.3 C 機器學(xué)習(xí)算法實現(xiàn)  175
9.2.4 C 數(shù)據(jù)庫抽象層  176
9.3 MADlib應(yīng)用  177
9.3.1 數(shù)據(jù)預(yù)處理  177
9.3.2 監(jiān)督學(xué)習(xí)  178
9.3.3 非監(jiān)督學(xué)習(xí)  184
9.3.4 時間序列  187
9.3.5 自定義機器學(xué)習(xí)算法  188
9.4 小結(jié)  191
第10章 Greenplum半結(jié)構(gòu)化文本數(shù)據(jù)分析  192
10.1 GPText文本分析概述  192
10.1.1 GPText數(shù)據(jù)提取  192
10.1.2 GPText的文本處理、索引流程和高階分析  193
10.2 GPText內(nèi)置的全文檢索引擎:Apache SolrCloud  194
10.3 GPText架構(gòu):高速并行索引和查詢  195
10.4 數(shù)據(jù)準備  197
10.5 GPText的使用:簡單的SQL和UDF函數(shù)  198
10.6 GPText的安裝  200
10.7 GPText索引  201
10.7.1 創(chuàng)建GPText索引  201
10.7.2 加載GPText索引  204
10.7.3 GPText 增減索引列  205
10.8 GPText簡單查詢  205
10.8.1 GPText 查詢的語法  205
10.8.2 GPText 臨近查詢  206
10.8.3 GPText top查詢  206
10.9 GPText高級查詢  207
10.9.1 GPText Facet 查詢  207
10.9.2 GPText 高亮查詢結(jié)果  209
10.10 GPText分區(qū)表查詢  210
10.11 GPText對自然語言處理的支持  211
10.12 GPText定制化索引  213
10.13 GPText管理工具  214
10.14 GPText用于文本挖掘和分析  215
10.15 小結(jié)  216
第11章 地理空間數(shù)據(jù)分析和處理  218
11.1 概述  218
11.1.1 什么是地理空間數(shù)據(jù)  218
11.1.2 地理空間數(shù)據(jù)應(yīng)用與分析中的挑戰(zhàn)  220
11.2 Greenplum PostGIS  223
11.2.1 Greenplum PostGIS 簡介  223
11.2.2 安裝Greenplum PostGIS 組件  224
11.2.3 次使用  227
11.3 Greenplum PostGIS應(yīng)用實例  228
11.3.1 GIS數(shù)據(jù)準備  228
11.3.2 使用Greenplum PostGIS空間數(shù)據(jù)操作符進行GIS數(shù)據(jù)查詢  230
11.3.3 使用Greenplum PostGIS的UDF進行GIS數(shù)據(jù)分析  233
11.3.4 柵格數(shù)據(jù)  235
11.4 小結(jié)  239
第12章 Greenplum數(shù)據(jù)庫與圖計算  240
12.1 圖的概念  240
12.2 圖的應(yīng)用  241
12.2.1 電子電路設(shè)計自動化  241
12.2.2 搜索引擎  242
12.2.3 社交網(wǎng)絡(luò)  242
12.3 圖數(shù)據(jù)的處理  243
12.4 Greenplum對圖數(shù)據(jù)的支持  244
12.5 MADlib中的圖結(jié)構(gòu)和算法  245
12.5.1 圖的表示  245
12.5.2 MADlib支持的圖算法  245
12.5.3 MADlib圖算法詳解  246
12.6 小結(jié)  277
第四部分 Greenplum的運維和遷移
第13章 Greenplum的監(jiān)控和管理  281
13.1 監(jiān)控Greenplum集群的狀態(tài)  282
13.1.1 gpstate命令  282
13.1.2 系統(tǒng)表gp_segment_conf?iguration  283
13.1.3 Segment的故障恢復(fù)和再平衡  284
13.1.4 常用的監(jiān)控命令  287
13.2 管理Greenplum集群  289
13.2.1 參數(shù)配置  289
13.2.2 訪問管理  290
13.2.3 統(tǒng)計信息  292
13.2.4 管理表膨脹  294
13.3 Greenplum指令中心(GPCC)  297
13.3.1 GPCC簡介  297
13.3.2 可視化監(jiān)控  298
13.3.3 查詢監(jiān)控和分析  301
13.3.4 工作負載管理  305
13.3.5 監(jiān)控告警系統(tǒng)  307
13.4 小結(jié)  309
第14章 Greenplum數(shù)據(jù)庫的備份、恢復(fù)和遷移  310
14.1 非并行數(shù)據(jù)庫備份  310
14.2 非并行數(shù)據(jù)庫恢復(fù)  313
14.3 并行數(shù)據(jù)庫備份  313
14.4 并行數(shù)據(jù)庫恢復(fù)  316
14.5 高效的并行數(shù)據(jù)庫備份和恢復(fù)工具gpbackup/gprestore  317
14.6 新一代Greenplum數(shù)據(jù)遷移工具GPCOPY  322
14.7 小結(jié)  324
第15章 從Oracle遷移到Greenplum  326
15.1 概述  326
15.2 Oracle與Greenplum的架構(gòu)對比  327
15.2.1 Oracle的主要痛點  329
15.2.2 Greenplum的優(yōu)勢  330
15.3 從Oracle遷移到Greenplum的流程  331
15.3.1 遷移場景  332
15.3.2 遷移過程  334
15.3.3 特殊場景分析  344
15.4 小結(jié)  352
第16章 從Teradata遷移到Greenplum  353
16.1 Teradata產(chǎn)品和用戶面臨的問題  353
16.2 從Teradata遷移到Greenplum的可行性  354
16.3 如何從Teradata遷移到Greenplum  356
16.3.1 遷移流程概述  356
16.3.2 Teradata數(shù)據(jù)卸載及DDL導(dǎo)出規(guī)范  357
16.3.3 數(shù)據(jù)操作語句轉(zhuǎn)換  364
16.3.4 函數(shù)轉(zhuǎn)換  367
16.3.5 ETL應(yīng)用工具連接轉(zhuǎn)換  369
16.3.6 其他應(yīng)用接口遷移  372
16.4 特殊場景  373
16.4.1 事前微批去重  373
16.4.2 事后批量去重  374
16.5 小結(jié)  374
附錄A Greenplum社區(qū)  375
附錄B 外部表實例  380
附錄C Greenplum的SSL證書  386
術(shù)語表  390

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號