注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫企業(yè)級大數(shù)據(jù)項(xiàng)目實(shí)戰(zhàn):用戶搜索行為分析系統(tǒng)從0到1

企業(yè)級大數(shù)據(jù)項(xiàng)目實(shí)戰(zhàn):用戶搜索行為分析系統(tǒng)從0到1

企業(yè)級大數(shù)據(jù)項(xiàng)目實(shí)戰(zhàn):用戶搜索行為分析系統(tǒng)從0到1

定 價(jià):¥89.00

作 者: 張偉洋
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787302630906 出版時(shí)間: 2023-06-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  《企業(yè)級大數(shù)據(jù)項(xiàng)目實(shí)戰(zhàn):用戶搜索行為分析系統(tǒng)從0到1》基于真實(shí)業(yè)務(wù)場景,以項(xiàng)目導(dǎo)向?yàn)橹骶€,從0到1全面介紹“企業(yè)級大數(shù)據(jù)用戶搜索行為分析系統(tǒng)”的搭建過程。全書共6章,第1章講解項(xiàng)目需求與架構(gòu)設(shè)計(jì),詳細(xì)闡述項(xiàng)目數(shù)據(jù)流與系統(tǒng)架構(gòu);第2章介紹大數(shù)據(jù)項(xiàng)目開發(fā)環(huán)境配置,手把手帶領(lǐng)讀者配置操作系統(tǒng)、Hadoop集群與相關(guān)工具,為后續(xù)項(xiàng)目實(shí)施打下基礎(chǔ);第3~5章逐步實(shí)現(xiàn)項(xiàng)目需求,第3章講解“用戶行為數(shù)據(jù)采集模塊”的開發(fā),第4章講解“用戶行為數(shù)據(jù)離線分析模塊”的開發(fā),第5章講解“用戶行為數(shù)據(jù)實(shí)時(shí)分析模塊”的開發(fā),這3章采用項(xiàng)目導(dǎo)向的方式,讓讀者參與實(shí)際開發(fā)過程;第6章講解“數(shù)據(jù)可視化模塊”的開發(fā),并整合各模塊,測試數(shù)據(jù)流轉(zhuǎn),完成項(xiàng)目的開發(fā)與部署。 《企業(yè)級大數(shù)據(jù)項(xiàng)目實(shí)戰(zhàn):用戶搜索行為分析系統(tǒng)從0到1》項(xiàng)目源自真實(shí)業(yè)務(wù)場景,目的是使讀者通過實(shí)際項(xiàng)目來理解理論知識(shí)并提高實(shí)踐能力。本書適合缺乏大數(shù)據(jù)項(xiàng)目經(jīng)驗(yàn)的從業(yè)者閱讀,也適合作為高等院校大數(shù)據(jù)專業(yè)的教學(xué)用書。

作者簡介

  張偉洋,從業(yè)近10年,大數(shù)據(jù)領(lǐng)域資深專家,擁有多年知名互聯(lián)網(wǎng)公司軟件研發(fā)經(jīng)驗(yàn),曾在互聯(lián)網(wǎng)旅游公司任軟件研發(fā)事業(yè)部經(jīng)理。目前從事大數(shù)據(jù)項(xiàng)目講師工作,先后多次為各大高校舉行大數(shù)據(jù)專題講座,對Hadoop及周邊大數(shù)據(jù)框架ZooKeeper、Hive、HBase、Storm、Spark、Flink等有著深入的研究。已出版《Flink大數(shù)據(jù)分析實(shí)戰(zhàn)》《Hadoop 3.x大數(shù)據(jù)實(shí)戰(zhàn)》等圖書。

圖書目錄

第 1 章  項(xiàng)目需求描述 1
1.1  項(xiàng)目需求 1
1.2  項(xiàng)目數(shù)據(jù)流設(shè)計(jì) 2
1.3  項(xiàng)目架構(gòu)設(shè)計(jì) 3
1.4  集群角色規(guī)劃 6
1.5  項(xiàng)目開發(fā)環(huán)境介紹 7
第 2 章  項(xiàng)目開發(fā)環(huán)境準(zhǔn)備 9
2.1  VMware中安裝CentOS 7操作系統(tǒng) 9
2.1.1  下載CentOS 7鏡像文件 10
2.1.2  VMware新建虛擬機(jī) 12
2.1.3  安裝CentOS 7 16
2.1.4  啟動(dòng)CentOS 7 21
2.1.5  打開Shell終端 22
2.2  Linux系統(tǒng)環(huán)境配置 22
2.2.1  新建用戶 23
2.2.2  修改用戶權(quán)限 23
2.2.3  關(guān)閉防火墻 24
2.2.4  設(shè)置固定IP 24
2.2.5  修改主機(jī)名 28
2.2.6  新建資源目錄 28
2.3  安裝JDK 29
2.4  克隆虛擬機(jī) 30
2.5  配置主機(jī)IP映射 33
2.6  配置集群各節(jié)點(diǎn)SSH無密鑰登錄 34
2.6.1  SSH無密鑰登錄原理 34
2.6.2  SSH無密鑰登錄操作步驟 35
2.7  搭建Hadoop分布式集群 36
2.7.1  搭建思路 37
2.7.2  搭建Hadoop集群 37
2.8  動(dòng)手練習(xí) 45
第 3 章  用戶行為數(shù)據(jù)采集模塊開發(fā) 46
3.1  用戶行為數(shù)據(jù)來源 47
3.1.1  構(gòu)建測試數(shù)據(jù) 47
3.1.2  數(shù)據(jù)預(yù)處理 48
3.2  使用Flume采集用戶行為數(shù)據(jù) 48
3.2.1  Flume采集架構(gòu) 49
3.2.2  Flume組件 51
3.2.3  Flume的安裝與測試 52
3.2.4  配置Flume多節(jié)點(diǎn)數(shù)據(jù)采集 55
3.3  使用Kafka中轉(zhuǎn)用戶行為數(shù)據(jù) 57
3.3.1  ZooKeeper集群的搭建 58
3.3.2  ZooKeeper集群的啟動(dòng)與連接 60
3.3.3  Kafka集群的搭建 61
3.3.4  Kafka集群的啟動(dòng)與查看 63
3.3.5  Kafka主題操作 64
3.4  Flume數(shù)據(jù)實(shí)時(shí)寫入Kafka 67
3.4.1  數(shù)據(jù)流架構(gòu) 67
3.4.2  配置centos03節(jié)點(diǎn)的Flume 67
3.4.3  啟動(dòng)Flume 68
3.4.4  測試數(shù)據(jù)流轉(zhuǎn) 69
3.5  使用HBase存儲(chǔ)用戶行為數(shù)據(jù) 69
3.5.1  HBase集群的架構(gòu) 70
3.5.2  HBase集群的搭建 73
3.5.3  HBase集群的啟動(dòng)、查看與停止 75
3.5.4  測試HBase數(shù)據(jù)表操作 77
3.5.5  創(chuàng)建HBase用戶行為表結(jié)構(gòu) 80
3.6  Flume數(shù)據(jù)實(shí)時(shí)寫入HBase 81
3.6.1  數(shù)據(jù)流架構(gòu) 81
3.6.2  配置centos03節(jié)點(diǎn)的Flume 81
3.6.3  Flume寫入HBase原理分析 83
3.6.4  用戶行為日志匹配測試 84
3.6.5  啟動(dòng)Flume 85
3.6.6  測試數(shù)據(jù)流轉(zhuǎn) 86
3.7  動(dòng)手練習(xí) 87
第 4 章  用戶行為數(shù)據(jù)離線分析模塊開發(fā) 88
4.1  Hive安裝 88
4.1.1  Hive內(nèi)嵌模式安裝 89
4.1.2  Hive本地模式安裝 92
4.1.3  Hive遠(yuǎn)程模式安裝 94
4.2  Hive數(shù)據(jù)庫操作 97
4.2.1  創(chuàng)建數(shù)據(jù)庫 97
4.2.2  修改數(shù)據(jù)庫 97
4.2.3  選擇數(shù)據(jù)庫 99
4.2.4  刪除數(shù)據(jù)庫 99
4.2.5  顯示數(shù)據(jù)庫 99
4.3  Hive表操作 100
4.3.1  內(nèi)部表操作 101
4.3.2  外部表操作 105
4.4  Hive離線分析用戶行為數(shù)據(jù) 107
4.4.1  創(chuàng)建用戶行為表并導(dǎo)入數(shù)據(jù) 107
4.4.2  統(tǒng)計(jì)前10個(gè)訪問量最高的用戶ID及訪問數(shù)量 108
4.4.3  分析鏈接排名與用戶點(diǎn)擊的相關(guān)性 109
4.4.4  分析一天中上網(wǎng)用戶最多的時(shí)間段 109
4.4.5  查詢用戶訪問最多的前10個(gè)網(wǎng)站域名 110
4.5  Hive集成HBase分析用戶行為數(shù)據(jù) 110
4.5.1  Hive集成HBase的原理 111
4.5.2  Hive集成HBase的配置 111
4.5.3  Hive分析HBase用戶行為表數(shù)據(jù) 112
4.6  Spark集群的搭建 114
4.6.1  應(yīng)用提交方式 114
4.6.2  搭建集群 116
4.7  Spark應(yīng)用程序的提交 118
4.7.1  spark-submit工具的使用 118
4.7.2  執(zhí)行Spark圓周率程序 119
4.7.3  Spark Shell的啟動(dòng) 120
4.8  Spark RDD算子運(yùn)算 121
4.8.1  Spark RDD特性 121
4.8.2  創(chuàng)建RDD 123
4.8.3  轉(zhuǎn)換算子運(yùn)算 124
4.8.4  行動(dòng)算子運(yùn)算 130
4.9  使用IntelliJ IDEA創(chuàng)建Scala項(xiàng)目 131
4.9.1  在IDEA中安裝Scala插件 132
4.9.2  創(chuàng)建Scala項(xiàng)目 133
4.10  Spark WordCount項(xiàng)目的創(chuàng)建與運(yùn)行 134
4.10.1  創(chuàng)建Maven管理的Spark項(xiàng)目 135
4.10.2  編寫WordCount程序 137
4.10.3  提交WordCount程序到集群 138
4.10.4  查看Spark WebUI 139
4.10.5  查看程序執(zhí)行結(jié)果 141
4.11  Spark RDD讀寫HBase 141
4.11.1  讀取HBase表數(shù)據(jù) 142
4.11.2  寫入HBase表數(shù)據(jù) 144
4.12  使用Spark SQL實(shí)現(xiàn)單詞計(jì)數(shù) 151
4.12.1  Spark SQL編程特性 151
4.12.2  Spark SQL的基本使用 153
4.12.3  Spark SQL實(shí)現(xiàn)單詞計(jì)數(shù) 155
4.13  Spark SQL數(shù)據(jù)源操作 159
4.13.1  基本操作 159
4.13.2  Parquet文件 164
4.13.3  JSON數(shù)據(jù)集 166
4.13.4  Hive表 167
4.13.5  JDBC 169
4.14  Spark SQL與Hive整合分析 170
4.14.1  整合Hive 171
4.14.2  操作Hive 173
4.15  Spark SQL整合MySQL存儲(chǔ)分析結(jié)果 175
4.15.1  MySQL數(shù)據(jù)準(zhǔn)備 175
4.15.2  讀取MySQL表數(shù)據(jù) 176
4.15.3  寫入結(jié)果數(shù)據(jù)到MySQL表 177
4.16  Spark SQL熱點(diǎn)搜索詞統(tǒng)計(jì) 179
4.16.1  開窗函數(shù)的使用 179
4.16.2  熱點(diǎn)搜索詞統(tǒng)計(jì)實(shí)現(xiàn) 181
4.17  Spark SQL搜索引擎每日UV統(tǒng)計(jì) 184
4.17.1  內(nèi)置函數(shù)的使用 184
4.17.2  搜索引擎每日UV統(tǒng)計(jì)實(shí)現(xiàn) 186
4.18  動(dòng)手練習(xí) 187
第 5 章  用戶行為數(shù)據(jù)實(shí)時(shí)分析模塊開發(fā) 189
5.1  Spark Streaming程序編寫 189
5.1.1  Spark Streaming工作原理 189
5.1.2  輸入DStream和Receiver 191
5.1.3  第一個(gè)Spark Streaming程序 191
5.2  Spark Streaming數(shù)據(jù)源 193
5.2.1  基本數(shù)據(jù)源 193
5.2.2  高級數(shù)據(jù)源 195
5.2.3  自定義數(shù)據(jù)源 196
5.3  DStream操作 199
5.3.1  無狀態(tài)操作 199
5.3.2  狀態(tài)操作 200
5.3.3  窗口操作 202
5.3.4  輸出操作 203
5.3.5  緩存及持久化 205
5.3.6  檢查點(diǎn) 205
5.4  Spark Streaming按批次累加單詞數(shù)量 207
5.4.1  編寫應(yīng)用程序 207
5.4.2  運(yùn)行應(yīng)用程序 209
5.4.3  查看Spark WebUI 210
5.5  Spark Streaming整合Kafka計(jì)算實(shí)時(shí)單詞數(shù)量 211
5.5.1  整合原理 212
5.5.2  編寫應(yīng)用程序 213
5.5.3  運(yùn)行應(yīng)用程序 216
5.6  Structured Streaming快速實(shí)時(shí)單詞計(jì)數(shù) 217
5.7  Structured Streaming編程模型 220
5.8  Structured Streaming查詢輸出 221
5.8.1  輸出模式 222
5.8.2  外部存儲(chǔ)系統(tǒng)與檢查點(diǎn) 223
5.9  Structured Streaming窗口操作 224
5.9.1  事件時(shí)間 225
5.9.2  窗口聚合單詞計(jì)數(shù) 226
5.9.3  延遲數(shù)據(jù)和水印 229
5.10  Structured Streaming消費(fèi)Kafka數(shù)據(jù)實(shí)現(xiàn)單詞計(jì)數(shù) 232
5.11  Structured Streaming輸出計(jì)算結(jié)果到MySQL 235
5.11.1  MySQL建庫、建表 235
5.11.2  Structured Streaming應(yīng)用程序的編寫 236
5.11.3  打包與提交Structured Streaming應(yīng)用程序 239
5.12  動(dòng)手練習(xí) 242
第 6 章  數(shù)據(jù)可視化模塊開發(fā) 244
6.1  IDEA搭建基于SpringBoot的Web項(xiàng)目 244
6.1.1  創(chuàng)建Maven項(xiàng)目 245
6.1.2  項(xiàng)目集成SpringBoot 246
6.2  WebSocket數(shù)據(jù)實(shí)時(shí)推送 249
6.2.1  WebSocket推送原理 249
6.2.2  項(xiàng)目集成WebSocket 249
6.2.3  創(chuàng)建JDBC查詢工具類 250
6.2.4  創(chuàng)建WebSocket服務(wù)處理類 251
6.3  使用ECharts進(jìn)行前端視圖展示 253
6.4  多框架整合實(shí)時(shí)分析用戶行為日志數(shù)據(jù)流 258
6.4.1  項(xiàng)目實(shí)時(shí)處理工作流程 258
6.4.2  模擬實(shí)時(shí)產(chǎn)生用戶行為數(shù)據(jù) 259
6.4.3  集群數(shù)據(jù)流轉(zhuǎn) 261
6.5  動(dòng)手練習(xí) 264
 
 
 
 

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號