注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件Apache Drill學(xué)習(xí)手冊(cè)

Apache Drill學(xué)習(xí)手冊(cè)

Apache Drill學(xué)習(xí)手冊(cè)

定 價(jià):¥88.00

作 者: 查爾斯吉弗(Charles Givre),保羅羅杰斯(Paul Rogers) 著
出版社: 中國(guó)電力出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787519843984 出版時(shí)間: 2020-05-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 356 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  主要內(nèi)容 ·使用Drill來(lái)清洗、準(zhǔn)備和匯總原始數(shù)據(jù)供后期分析使用。 ·對(duì)日志文件、Parquet文件、JSON和其他復(fù)雜的數(shù)據(jù)文件進(jìn)行查詢(xún)。 ·使用標(biāo)準(zhǔn)SQL對(duì)Hadoop、關(guān)系型數(shù)據(jù)庫(kù)、MongoDB和Kafka進(jìn)行查詢(xún)。 ·通過(guò)各種編程語(yǔ)言訪(fǎng)問(wèn)Drill。 ·使用Drill分析各種結(jié)構(gòu)復(fù)雜或存在二義性的數(shù)據(jù)。 ·通過(guò)自定義函數(shù)擴(kuò)展Drill的功能,完成復(fù)雜的分析任務(wù)。 ·為網(wǎng)絡(luò)安全、圖片元數(shù)據(jù)或機(jī)器學(xué)習(xí)數(shù)據(jù)提供分析能力。

作者簡(jiǎn)介

  Charles Givre是Apache Drill的PMC成員,他是德意志銀行中央安全辦公室的首席數(shù)據(jù)科學(xué)家。他致力于培養(yǎng)數(shù)據(jù)科學(xué)家并教授數(shù)據(jù)分析技能,為此他還合伙創(chuàng)辦自己的培訓(xùn)公司GTK Cyber。他在全球各種會(huì)議和高校教授上述主題的內(nèi)容。 Paul Rogers是Apache Drill的PMC成員,他專(zhuān)注于Drill的執(zhí)行引擎開(kāi)發(fā),同時(shí)也是一位數(shù)據(jù)庫(kù)和BI方面的軟件架構(gòu)師。他曾經(jīng)在Cloudera、MapR、Oracle、Actuate和Informix工作。

圖書(shū)目錄

目錄
前言 1
第1 章 Apache Drill 入門(mén) 7
什么是Apache Drill 8
Drill 用途廣泛 8
Drill 非常易用 10
有關(guān)Drill 的性能 11
大數(shù)據(jù)簡(jiǎn)史 11
大數(shù)據(jù)生態(tài)中的Drill 13
Drill 與類(lèi)似工具的比較 13
第2 章 安裝與運(yùn)行 15
準(zhǔn)備系統(tǒng)環(huán)境 16
Windows 環(huán)境下的特殊配置 16
在Windows 上安裝Drill 18
在Windows 上啟動(dòng)Drill 18
在macOS 或Linux 上安裝嵌入模式的Drill 19
在macOS 或Linux 上以嵌入模式運(yùn)行Drill 20
在macOS 或 Linux 上安裝分布式模式的Drill 21
為Drill 準(zhǔn)備集群環(huán)境 22
啟動(dòng)分布式模式的Drill 23
連接集群 23
小結(jié) 24
第3 章 Apache Drill 概述 25
Apache Hadoop 生態(tài) 25
Drill 是一個(gè)低延遲的查詢(xún)引擎 26
使用HDFS 進(jìn)行分布式數(shù)據(jù)處理 27
Drill 系統(tǒng)結(jié)構(gòu) 27
Drill 操作概覽 28
Drill 是一個(gè)查詢(xún)引擎,不是數(shù)據(jù)庫(kù) 29
Drill 操作概述 30
Drill 組件 30
SQL 會(huì)話(huà)狀態(tài) 30
編譯查詢(xún)語(yǔ)句 31
查詢(xún)語(yǔ)句執(zhí)行 36
低延遲特性38
小結(jié) 41
第4 章 查詢(xún)包含分隔符的數(shù)據(jù) 42
通過(guò)Drill 查詢(xún)數(shù)據(jù)的幾種方式 42
其他操作接口 43
Drill SQL 查詢(xún)格式 44
選擇數(shù)據(jù)源44
定義工作區(qū)46
指定默認(rèn)數(shù)據(jù)源 47
在查詢(xún)中訪(fǎng)問(wèn)列 49
帶表頭并包含分隔符的數(shù)據(jù) 51
Table 函數(shù) 53
查詢(xún)目錄中的數(shù)據(jù) 53
理解Drill 的數(shù)據(jù)類(lèi)型 55
使用字符串處理函數(shù)清洗和準(zhǔn)備數(shù)據(jù) 57
復(fù)雜數(shù)據(jù)轉(zhuǎn)換函數(shù) 59
操作Drill 中的日期和時(shí)間 60
把字符串轉(zhuǎn)換為日期 61
對(duì)日期進(jìn)行重新格式化 63
日期計(jì)算與操作 63
Drill 中的日期時(shí)間函數(shù) 64
創(chuàng)建視圖 65
使用Drill 進(jìn)行數(shù)據(jù)分析 66
通過(guò)聚合函數(shù)對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì) 68
查詢(xún)包含分隔符數(shù)據(jù)的常見(jiàn)問(wèn)題 75
列名中的空格 75
列名中的非法字符 76
字段名中的保留字 76
小結(jié) 77
第5 章 分析復(fù)合與嵌套數(shù)據(jù) 78
數(shù)組與Map 78
Drill 中的數(shù)組 79
在Drill 中訪(fǎng)問(wèn)Map(鍵– 值對(duì)) 81
查詢(xún)嵌套數(shù)據(jù) 83
使用Drill 分析日志文件 91
配置Drill 讀取httpd Web 服務(wù)器的日志 91
查詢(xún)Web 服務(wù)器日志 92
用Drill 對(duì)其他類(lèi)型的日志進(jìn)行分析 97
小結(jié) 100
第6 章 把Drill 連接到數(shù)據(jù)源 101
查詢(xún)多種數(shù)據(jù)源 102
配置新的存儲(chǔ)插件 102
用Drill 連接關(guān)系型數(shù)據(jù)庫(kù) 103
通過(guò)Drill 查詢(xún)Hadoop 數(shù)據(jù) 108
用Drill 連接并查詢(xún)HBase 108
用Drill 查詢(xún)Hive 數(shù)據(jù) 110
連接Kafka 查詢(xún)流數(shù)據(jù) 113
提高Kafka 查詢(xún)的性能 115
連接并查詢(xún)Kudu 115
用Drill 連接并查詢(xún)MongoDB 數(shù)據(jù) 116
把Drill 連接到云存儲(chǔ) 116
用Drill 從OpenTSDB 查詢(xún)時(shí)間序列數(shù)據(jù) 121
小結(jié) 122
第7 章 連接Drill 123
理解Drill 的接口 123
JDBC 與Drill 124
ODBC 與Drill 125
Drill 的REST 接口 127
使用Python 連接Drill 128
使用drillpy 對(duì)Drill 發(fā)起查詢(xún) 129
使用pydrill 連接Drill 130
其他通過(guò)Python 連接Drill 的方法 131
用R 語(yǔ)言連接Drill 133
使用sergeant 在R 中查詢(xún)Drill 133
通過(guò)Java 連接Drill 135
在PHP 中查詢(xún)Drill 136
使用連接器137
在PHP 中執(zhí)行Drill 查詢(xún) 137
在PHP 中操作Drill 138
使用Nodejs 查詢(xún)Drill 139
在BI 工具中使用Drill 作為數(shù)據(jù)源 139
使用Apache Zeppelin 和Drill 分析數(shù)據(jù) 139
使用Apache Superset 分析數(shù)據(jù) 145
小結(jié) 151
第8 章 用Drill 完成數(shù)據(jù)工程工作 152
讀時(shí)Schema 152
SQL 關(guān)系模型 153
數(shù)據(jù)生命周期:數(shù)據(jù)探索到生產(chǎn) 154
Schema 推導(dǎo) 155
數(shù)據(jù)源推導(dǎo) 155
存儲(chǔ)插件 156
存儲(chǔ)配置 156
工作區(qū) 157
查詢(xún)目錄 159
默認(rèn)Schema 159
文件類(lèi)型推導(dǎo) 160
格式插件與格式配置 160
格式推導(dǎo) 161
文件格式變種 162
Schema 推導(dǎo)概述163
分布式掃描 165
帶分隔符數(shù)據(jù)的Schema 推導(dǎo) 167
CSV 文件處理小結(jié) 173
JSON 文件的Schema 推導(dǎo) 175
二義性數(shù)值Schema 178
在文件間保證Schema 一致 184
JSON 對(duì)象 186
Drill 中的JSON 列表 189
JSON 小結(jié) 193
在Drill 中使用Parquet 文件格式 194
Parquet 中的Schema 進(jìn)化 195
分區(qū)數(shù)據(jù)目錄 195
定義表工作區(qū) 198
處理生產(chǎn)環(huán)境中的查詢(xún) 199
捕捉Schema 映射視圖 199
在腳本中運(yùn)行復(fù)雜查詢(xún) 200
小結(jié) 201
第9 章 在生產(chǎn)環(huán)境部署Drill 202
安裝Drill 202
前置需求 203
生產(chǎn)環(huán)境安裝 204
配置ZooKeeper 205
內(nèi)存配置 206
配置日志 208
測(cè)試安裝是否成功 209
分發(fā)Drill 可執(zhí)行文件和配置 210
啟動(dòng)Drill 集群 211
配置存儲(chǔ) 212
使用Apache Hadoop HDFS 213
使用Amazon S3 214
準(zhǔn)入控制 217
其他配置 219
用戶(hù)自定義函數(shù)與自定義插件 219
安全 220
日志級(jí)別 220
控制CPU 使用 222
監(jiān)控 223
監(jiān)控Drill 的進(jìn)程 224
監(jiān)控JMX 指標(biāo) 224
監(jiān)控查詢(xún) 225
其他部署選項(xiàng) 225
MapR 安裝程序 226
Drill-on-YRAN 226
Docker 226
小結(jié) 227
第10 章 搭建開(kāi)發(fā)環(huán)境 228
安裝Maven 228
創(chuàng)建Drill 的編譯環(huán)境 229
設(shè)置Git 并獲取源代碼 229
從代碼編譯Drill 230
安裝IDE 231
小結(jié) 231
第11 章 編寫(xiě)用戶(hù)自定義函數(shù) 232
用例:找出合法的信用卡號(hào)碼 232
Drill 中的用戶(hù)自定義函數(shù)是怎么工作的 234
Drill 的簡(jiǎn)單UDF 結(jié)構(gòu) 234
pomxml 文件 235
函數(shù)文件 236
簡(jiǎn)單函數(shù)API 240
完整的代碼241
構(gòu)建與安裝UDF 243
靜態(tài)安裝UDF 243
動(dòng)態(tài)安裝UDF 243
復(fù)合函數(shù):返回Map 或數(shù)組的UDF 244
例子:解析User Agent 元數(shù)據(jù) 245
ComplexWriter 對(duì)象 246
編寫(xiě)聚合UDF 248
聚合函數(shù)API 249
聚合UDF 示例:肯德?tīng)栔认嚓P(guān)系數(shù) 249
小結(jié) 252
第12 章 編寫(xiě)格式插件 253
正則表達(dá)式格式插件 253
基于Easy 框架創(chuàng)建格式插件 255
創(chuàng)建Maven 的pomxml 文件 256
創(chuàng)建插件包258
Drill 模塊配置 258
格式插件配置 259
注意事項(xiàng) 259
創(chuàng)建正則表達(dá)式格式插件配置類(lèi) 260
版權(quán)聲明頭與代碼格式 262
測(cè)試配置 262
解決配置問(wèn)題 263
排查問(wèn)題 264
創(chuàng)建格式插件類(lèi) 264
創(chuàng)建測(cè)試文件 267
配置RAT 267
高效調(diào)試 267
創(chuàng)建單元測(cè)試 268
Drill 是如何找到插件的 270
記錄讀取器 270
測(cè)試讀取器的殼 273
日志 274
出錯(cuò)處理 274
初始化 275
解析正則表達(dá)式 276
定義列名 276
投影 277
記錄列投影映射 278
空投影 278
全投影 279
部分投影 279
打開(kāi)文件 281
記錄批 282
Drill 的列存結(jié)構(gòu) 282
定義向量 283
讀取數(shù)據(jù) 284
把數(shù)據(jù)放入向量 285
釋放資源 286
測(cè)試讀取器 286
測(cè)試通配符場(chǎng)景 286
測(cè)試顯式投影 288
測(cè)試空投影288
擴(kuò)展 288
其他細(xì)節(jié) 290
文件塊 290
默認(rèn)格式配置 290
下一步 292
生產(chǎn)版本 292
給Drill 貢獻(xiàn)代碼:使用Pull Request 292
維護(hù)你的分支 293
創(chuàng)建插件項(xiàng)目 293
小結(jié) 294
第13 章 特殊用法 296
查找在特定區(qū)域拍攝的照片 296
分析Excel 文件 297
pomxml 文件 298
Excel 自定義記錄讀取器 299
使用Excel 格式插件 303
用Drill 分析網(wǎng)絡(luò)數(shù)據(jù)包(PCAP 文件) 304
查詢(xún)PCAP 數(shù)據(jù)文件的例子 304
使用Drill 分析Twitter 數(shù)據(jù) 308
在機(jī)器學(xué)習(xí)流程中使用Drill 309
通過(guò)Drill 進(jìn)行預(yù)測(cè) 310
建立與序列化模型 310
編寫(xiě)UDF 封裝類(lèi) 311
通過(guò)UDF 進(jìn)行預(yù)測(cè) 313
小結(jié) 313
附錄A Drill 函數(shù)列表 315
附錄B Drill 格式化字符串 331

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)