注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計Flink原理深入與編程實戰(zhàn):Scala+Java(微課視頻版)

Flink原理深入與編程實戰(zhàn):Scala+Java(微課視頻版)

Flink原理深入與編程實戰(zhàn):Scala+Java(微課視頻版)

定 價:¥159.00

作 者: 辛立偉
出版社: 清華大學(xué)出版社
叢編項:
標(biāo) 簽: 暫缺

ISBN: 9787302626947 出版時間: 2023-02-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  本書講述Apache Flink大數(shù)據(jù)框架的原理,以及如果將Apache Flink應(yīng)用于大數(shù)據(jù)的實時流處理、批處理、批流一體分析等各個場景。通過原理深入學(xué)習(xí)和實踐示例、案例的學(xué)習(xí)應(yīng)用,使讀者了解并掌握Apache Flink流處理的框架的基本原理和技能,接近理論與實踐的距離。 全書共分為8章,主要內(nèi)容包括Flink架構(gòu)與集群安裝、Flink開發(fā)環(huán)境準(zhǔn)備(基于IntelliJ IDEA和Maven)、開發(fā)Flink實時數(shù)據(jù)處理程序、Flink流數(shù)據(jù)分析、時間和水印概念、窗口操作、狀態(tài)和容錯、側(cè)輸出流、Flink流連接器、Flink流處理案例、開發(fā)Flink批數(shù)據(jù)處理程序、使用Table API進(jìn)行數(shù)據(jù)處理、Flink on YARN、基于Flink構(gòu)建批流一體數(shù)倉、基于Flink和Iceberg數(shù)據(jù)湖構(gòu)建實時數(shù)倉。本書源碼全部在Apache Flink 1.13.2上調(diào)試成功,所有示例和案例均提供Scala語言和Java語言兩套API的實現(xiàn)(第8章除外),供讀者參考。 本書系統(tǒng)講解了Apache Flink大數(shù)據(jù)框架的原理和流、批處理的開發(fā)實踐,內(nèi)容全面、實例豐富、可操作性強(qiáng),做到了理論與實踐相結(jié)合。本書適合大數(shù)據(jù)學(xué)習(xí)愛好者、想要入門Apache Flink的讀者作為入門和提高的技術(shù)參考書,也適合用作大中專院校大數(shù)據(jù)專業(yè)相關(guān)的學(xué)生和老師的教材或教學(xué)參考書。

作者簡介

  辛立偉,一個在IT領(lǐng)域摸爬滾打20多年的老程序員、技術(shù)培訓(xùn)師、技術(shù)作者。橫跨Java、數(shù)據(jù)庫、大數(shù)據(jù)開發(fā)與分析、人工智能等多個領(lǐng)域,參與多個IT項目的架構(gòu)設(shè)計與開發(fā)。長期堅持撰寫技術(shù)博客,曾在多個大學(xué)講授Java開發(fā)、數(shù)據(jù)庫和大數(shù)據(jù)技術(shù)課程,曾擔(dān)任中國石油大學(xué)(青島校區(qū))等多所院校的外聘講師。

圖書目錄

第1章Flink架構(gòu)與集群安裝(81min)
1.1Flink簡介
1.1.1Flink發(fā)展歷程
1.1.2Flink特性
1.2Flink應(yīng)用場景
1.2.1事件驅(qū)動應(yīng)用程序
1.2.2數(shù)據(jù)分析應(yīng)用程序
1.2.3數(shù)據(jù)管道應(yīng)用程序
1.3Flink體系架構(gòu)
1.3.1Flink系統(tǒng)架構(gòu)
1.3.2Flink運行時架構(gòu)
1.3.3Flink資源管理
1.3.4Flink作業(yè)調(diào)度
1.3.5Flink故障恢復(fù)
1.3.6Flink程序執(zhí)行模式
1.4Flink集群安裝
1.4.1Flink獨立集群安裝和測試
1.4.2Flink完全分布式集群安裝
1.4.3Flink常用命令
第2章Flink開發(fā)環(huán)境準(zhǔn)備(37min)
2.1安裝和配置
2.1.1安裝和配置Maven
2.1.2修改Maven本地倉庫默認(rèn)位置
2.1.3創(chuàng)建初始模板項目
2.1.4構(gòu)建打包項目
2.2使用IntelliJ IDEA Maven開發(fā)Flink項目
2.2.1在IntelliJ IDEA中創(chuàng)建Flink項目
2.2.2設(shè)置項目基本依賴
2.2.3用于構(gòu)建具有依賴項的JAR的模板
2.2.4編寫批處理代碼并測試執(zhí)行
2.2.5項目打包并提交Flink集群執(zhí)行
2.3Flink相關(guān)概念
2.3.1Flink數(shù)據(jù)流
2.3.2Flink分層API
第3章開發(fā)Flink實時數(shù)據(jù)處理程序(376min)
3.1Flink流處理程序編程模型
3.1.1流數(shù)據(jù)類型
3.1.2流應(yīng)用程序?qū)崿F(xiàn)
3.1.3流應(yīng)用程序剖析
3.2Flink支持的數(shù)據(jù)源
3.2.1基于Socket的數(shù)據(jù)源
3.2.2基于文件的數(shù)據(jù)源
3.2.3基于集合的數(shù)據(jù)源
3.2.4自定義數(shù)據(jù)源
3.3Flink數(shù)據(jù)轉(zhuǎn)換
3.3.1map轉(zhuǎn)換
3.3.2flatMap轉(zhuǎn)換
3.3.3filter轉(zhuǎn)換
3.3.4keyBy轉(zhuǎn)換
3.3.5reduce轉(zhuǎn)換
3.3.6聚合轉(zhuǎn)換
3.3.7union轉(zhuǎn)換
3.3.8connect轉(zhuǎn)換
3.3.9coMap及coFlatMap轉(zhuǎn)換
3.3.10iterate轉(zhuǎn)換
3.3.11project轉(zhuǎn)換
3.4Flink流數(shù)據(jù)分區(qū)
3.4.1流數(shù)據(jù)分發(fā)模式
3.4.2數(shù)據(jù)分區(qū)方法
3.4.3數(shù)據(jù)分區(qū)示例
3.4.4理解操作符鏈
3.5Flink數(shù)據(jù)接收器
3.5.1內(nèi)置數(shù)據(jù)接收器
3.5.2使用流文件連接器
3.5.3自定義數(shù)據(jù)接收器
3.6時間和水印概念
3.6.1時間概念
3.6.2事件時間和水印
3.6.3水印策略
3.6.4處理空閑數(shù)據(jù)源
3.6.5編寫水印生成器
3.6.6內(nèi)置水印生成器
3.6.7分配時間戳和水印示例
3.7窗口操作
3.7.1理解Flink窗口概念
3.7.2窗口分配器
3.7.3窗口函數(shù)
3.7.4觸發(fā)器
3.7.5清除器
3.7.6處理遲到數(shù)據(jù)
3.7.7處理窗口結(jié)果
3.7.8窗口連接
3.8低級操作
3.8.1ProcessFunction
3.8.2KeyedProcessFunction示例
3.8.3案例: 服務(wù)器故障檢測報警程序
3.9狀態(tài)和容錯
3.9.1狀態(tài)運算
3.9.2狀態(tài)的類型
3.9.3使用托管的Keyed State
3.9.4使用托管Operator State
3.9.5廣播狀態(tài)
3.9.6狀態(tài)后端
3.9.7檢查點機(jī)制
3.9.8狀態(tài)快照
3.10側(cè)輸出流
3.10.1什么是側(cè)輸出流
3.10.2側(cè)輸出流應(yīng)用示例
3.11Flink流連接器
3.11.1Kafka連接器
3.11.2JDBC連接器
3.12其他
3.12.1在應(yīng)用程序中使用日志
3.12.2使用ParameterTool
3.12.3命名大型TupleX類型
3.13Flink流處理案例
3.13.1處理IoT事件流
3.13.2運輸公司車輛超速實時監(jiān)測
第4章開發(fā)Flink批數(shù)據(jù)處理程序(64min)
4.1Flink批處理程序編程模型
4.1.1批應(yīng)用程序?qū)崿F(xiàn)
4.1.2批應(yīng)用程序剖析
4.2數(shù)據(jù)源
4.2.1基于文件的數(shù)據(jù)源
4.2.2基于集合的數(shù)據(jù)源
4.2.3通用的數(shù)據(jù)源
4.2.4壓縮文件
4.3數(shù)據(jù)轉(zhuǎn)換
4.3.1map轉(zhuǎn)換
4.3.2flatMap轉(zhuǎn)換
4.3.3mapPartition轉(zhuǎn)換
4.3.4filter轉(zhuǎn)換
4.3.5reduce轉(zhuǎn)換
4.3.6在分組數(shù)據(jù)集上的reduce轉(zhuǎn)換
4.3.7在分組數(shù)據(jù)集上的GroupReduce轉(zhuǎn)換
4.3.8在分組數(shù)據(jù)集上的GroupCombine轉(zhuǎn)換
4.3.9在分組元組數(shù)據(jù)集上執(zhí)行聚合
4.3.10在分組元組數(shù)據(jù)集上執(zhí)行minBy轉(zhuǎn)換
4.3.11在分組元組數(shù)據(jù)集上執(zhí)行maxBy轉(zhuǎn)換
4.3.12在全部元組數(shù)據(jù)集上執(zhí)行聚合操作
4.3.13distinct轉(zhuǎn)換
4.3.14join連接轉(zhuǎn)換
4.3.15union轉(zhuǎn)換
4.3.16project轉(zhuǎn)換
4.3.17firstn轉(zhuǎn)換
4.4數(shù)據(jù)接收器
4.4.1將計算結(jié)果保存到文本文件
4.4.2將計算結(jié)果保存到JDBC
4.4.3標(biāo)準(zhǔn)DataSink方法
4.4.4本地排序輸出
4.5廣播變量
4.6分布式緩存
4.7參數(shù)傳遞
4.7.1通過構(gòu)造函數(shù)傳參
4.7.2通過withParameters(Configuration)傳參
4.7.3通過ExecutionConfig傳遞全局參數(shù)
4.8數(shù)據(jù)集中的拉鏈操作
4.8.1密集索引
4.8.2唯一索引
4.9Flink批處理示例
4.9.1分析豆瓣熱門電影數(shù)據(jù)集——Scala實現(xiàn)
4.9.2分析豆瓣熱門電影數(shù)據(jù)集——Java實現(xiàn)
第5章使用Table API進(jìn)行數(shù)據(jù)處理(136min)
5.1依賴
5.2Table API與SQL編程模式
5.2.1TableEnvironment
5.2.2Table API與SQL程序的結(jié)構(gòu)
5.2.3在Catalog中創(chuàng)建表
5.2.4查詢表
5.2.5向下游發(fā)送表
5.2.6翻譯并執(zhí)行查詢
5.3Table API
5.3.1關(guān)系運算
5.3.2窗口運算
5.3.3基于行的操作
5.4Table API與DataStream API集成
5.4.1依賴
5.4.2在DataStream和Table之間轉(zhuǎn)換
5.4.3處理insertonly流
5.4.4處理變更日志流
5.5Table API實時流處理案例
5.5.1傳感器溫度實時統(tǒng)計
5.5.2車輛超速實時監(jiān)測
5.5.3電商用戶行為實時分析
第6章Flink on YARN(13min)
6.1Flink on YARN session
6.1.1下載Flink集成Hadoop依賴包
6.1.2運行Flink on YARN session
6.1.3提交Flink作業(yè)
6.1.4停止Flink on YARN session
6.2Flink on YARN支持的部署模式
6.2.1Application模式
6.2.2PerJob集群模式
6.2.3session模式
第7章基于Flink構(gòu)建流批一體數(shù)倉(27min)
7.1Flink集成Hive數(shù)倉
7.1.1Flink集成Hive的方式
7.1.2Flink集成Hive的步驟
7.1.3Flink連接Hive模板代碼
7.2批流一體數(shù)倉構(gòu)建實例
7.2.1數(shù)據(jù)集說明
7.2.2創(chuàng)建Flink項目
7.2.3創(chuàng)建執(zhí)行環(huán)境
7.2.4注冊HiveCatalog
7.2.5創(chuàng)建Kafka流表
7.2.6創(chuàng)建Hive表
7.2.7流寫Hive表
7.2.8動態(tài)讀取Hive流表
7.2.9完整示例代碼
7.2.10執(zhí)行步驟
7.3純SQL構(gòu)建批流一體數(shù)倉
7.3.1使用Flink SQL客戶端
7.3.2集成Flink SQL CLI和Hive
7.3.3注冊HiveCatalog
7.3.4使用SQL Client提交作業(yè)
7.3.5構(gòu)建批流一體數(shù)倉完整過程
第8章基于Flink和Iceberg數(shù)據(jù)湖構(gòu)建實時數(shù)倉(23min)
8.1現(xiàn)代數(shù)據(jù)湖概述
8.1.1什么是數(shù)據(jù)湖
8.1.2數(shù)據(jù)湖架構(gòu)
8.1.3開源數(shù)據(jù)湖框架
8.2基于Flink Iceberg構(gòu)建企業(yè)數(shù)據(jù)湖
8.2.1Apache Iceberg的優(yōu)勢
8.2.2Apache Iceberg經(jīng)典業(yè)務(wù)場景
8.2.3應(yīng)用Apache Iceberg的準(zhǔn)備工作
8.2.4創(chuàng)建和使用Catalog
8.2.5Iceberg DDL命令
8.2.6Iceberg SQL查詢
8.2.7Iceberg SQL寫入
8.2.8使用DataStream讀取
8.2.9使用DataStream寫入
8.2.10重寫文件操作
8.2.11未來改進(jìn)
8.3基于Flink Iceberg構(gòu)建準(zhǔn)實時數(shù)倉
8.3.1實時數(shù)倉構(gòu)建
8.3.2執(zhí)行OLAP聯(lián)機(jī)分析
圖書推薦
 

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號