注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)網(wǎng)絡(luò)與數(shù)據(jù)通信Alink權(quán)威指南:基于Flink的機(jī)器學(xué)習(xí)實(shí)例入門(Java)

Alink權(quán)威指南:基于Flink的機(jī)器學(xué)習(xí)實(shí)例入門(Java)

Alink權(quán)威指南:基于Flink的機(jī)器學(xué)習(xí)實(shí)例入門(Java)

定 價(jià):¥149.00

作 者: 楊旭 著
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787121420580 出版時(shí)間: 2021-10-01 包裝: 平裝
開本: 16開 頁數(shù): 472 字?jǐn)?shù):  

內(nèi)容簡介

  全書圍繞Alink(阿里在Flink基礎(chǔ)上做的開源版本)的展開,以實(shí)例為主闡述Alink的使用。 ?以機(jī)器學(xué)習(xí)的知識(shí)架構(gòu)將各個(gè)章節(jié)串聯(lián)起來,每個(gè)章節(jié)配合實(shí)例,用戶更容易理解和入手嘗試。 ?數(shù)據(jù)會(huì)采用讀者能免費(fèi)下載的數(shù)據(jù)集,在加上Alink本身是開源的、免費(fèi)的。用戶試用起來沒有成本。 ?實(shí)例實(shí)現(xiàn)的源代碼,準(zhǔn)備放在Alink開源git上,大家容易看到,可以直接下載,代碼旁邊會(huì)有實(shí)體書的介紹 ?以機(jī)器學(xué)習(xí)的知識(shí)架構(gòu)將各個(gè)章節(jié)串聯(lián)起來,每個(gè)章節(jié)配合實(shí)例,用戶更容易理解和入手嘗試。 ?數(shù)據(jù)會(huì)采用讀者能免費(fèi)下載的數(shù)據(jù)集,在加上Alink本身是開源的、免費(fèi)的。用戶試用起來沒有成本。 ?實(shí)例實(shí)現(xiàn)的源代碼,準(zhǔn)備放在Alink開源git上,大家容易看到,可以直接下載,代碼旁邊會(huì)有實(shí)體書的介紹

作者簡介

  2004年獲南開大學(xué)數(shù)學(xué)博士學(xué)位;隨后在南開大學(xué)信息學(xué)院從事博士后研究工作;2006年加入微軟亞洲研究院,進(jìn)行符號(hào)計(jì)算、大規(guī)模矩陣計(jì)算及機(jī)器學(xué)習(xí)算法研究;2010年加入阿里巴巴,從事大數(shù)據(jù)相關(guān)的統(tǒng)計(jì)和機(jī)器學(xué)習(xí)算法研發(fā)。著有《重構(gòu)大數(shù)據(jù)統(tǒng)計(jì)》《機(jī)器學(xué)習(xí)在線》等。

圖書目錄

目  錄

第1章 Alink快速上手\t1
1.1 Alink是什么\t1
1.2 免費(fèi)下載、安裝\t1
1.3 Alink的功能\t2
1.3.1 豐富的算法庫\t2
1.3.2 多樣的使用體驗(yàn)\t3
1.3.3 與SparkML的對(duì)比\t3
1.4 關(guān)于數(shù)據(jù)和代碼\t4
1.5 簡單示例\t5
1.5.1 數(shù)據(jù)的讀/寫與顯示\t5
1.5.2 批式訓(xùn)練和批式預(yù)測\t7
1.5.3 流式處理和流式預(yù)測\t9
1.5.4 定義Pipeline,簡化操作\t10
1.5.5 嵌入預(yù)測服務(wù)系統(tǒng)\t12
第2章 系統(tǒng)概況與核心概念\t14
2.1 基本概念\t14
2.2 批式任務(wù)與流式任務(wù)\t15
2.3 Alink=A+link\t18
2.3.1 BatchOperator和StreamOperator\t19
2.3.2 link方式是批式算法/流式算法的通用使用方式\t20
2.3.3 link的簡化\t23
2.3.4 組件的主輸出與側(cè)輸出\t23
2.4 Pipeline與PipelineModel\t24
2.4.1 概念和定義\t24
2.4.2 深入介紹\t25
2.5 觸發(fā)Alink任務(wù)的執(zhí)行\(zhòng)t28
2.6 模型信息顯示\t29
2.7 文件系統(tǒng)與數(shù)據(jù)庫\t34
2.8 Schema String\t36
第3章 文件系統(tǒng)與數(shù)據(jù)文件\t38
3.1 文件系統(tǒng)簡介\t38
3.1.1 本地文件系統(tǒng)\t39
3.1.2 Hadoop文件系統(tǒng)\t41
3.1.3 阿里云OSS文件系統(tǒng)\t43
3.2 數(shù)據(jù)文件的讀入與導(dǎo)出\t45
3.2.1 CSV格式\t47
3.2.2 TSV、LibSVM、Text格式\t53
3.2.3 AK格式\t56
第4章 數(shù)據(jù)庫與數(shù)據(jù)表\t60
4.1 簡介\t60
4.1.1 Catalog的基本操作\t60
4.1.2 Source和Sink組件\t61
4.2 Hive示例\t62
4.3 Derby示例\t65
4.4 MySQL示例\t67
第5章 支持Flink SQL\t70
5.1 基本操作\t70
5.1.1 注冊(cè)\t70
5.1.2 運(yùn)行\(zhòng)t71
5.1.3 內(nèi)置函數(shù)\t74
5.1.4 用戶定義函數(shù)\t74
5.2 簡化操作\t75
5.2.1 單表操作\t76
5.2.2 兩表的連接(JOIN)操作\t80
5.2.3 兩表的集合操作\t82
5.3 深入介紹Table Environment\t86
5.3.1 注冊(cè)數(shù)據(jù)表名\t87
5.3.2 撤銷數(shù)據(jù)表名\t88
5.3.3 掃描已注冊(cè)的表\t89
第6章 用戶定義函數(shù)(UDF/UDTF)\t90
6.1 用戶定義標(biāo)量函數(shù)(UDF)\t90
6.1.1 示例數(shù)據(jù)及問題\t91
6.1.2 UDF的定義\t91
6.1.3 使用UDF處理批式數(shù)據(jù)\t92
6.1.4 使用UDF處理流式數(shù)據(jù)\t93
6.2 用戶定義表值函數(shù)(UDTF)\t95
6.2.1 示例數(shù)據(jù)及問題\t95
6.2.2 UDTF的定義\t96
6.2.3 使用UDTF處理批式數(shù)據(jù)\t96
6.2.4 使用UDTF處理流式數(shù)據(jù)\t99
第7章 基本數(shù)據(jù)處理\t101
7.1 采樣\t101
7.1.1 取“前”N個(gè)數(shù)據(jù)\t102
7.1.2 隨機(jī)采樣\t102
7.1.3 加權(quán)采樣\t104
7.1.4 分層采樣\t105
7.2 數(shù)據(jù)劃分\t106
7.3 數(shù)值尺度變換\t108
7.3.1 標(biāo)準(zhǔn)化\t109
7.3.2 MinMaxScale\t111
7.3.3 MaxAbsScale\t112
7.4 向量的尺度變換\t113
7.4.1 StandardScale、MinMaxScale、MaxAbsScale\t113
7.4.2 正則化\t115
7.5 缺失值填充\t116
第8章 線性二分類模型\t119
8.1 線性模型的基礎(chǔ)知識(shí)\t119
8.1.1 損失函數(shù)\t119
8.1.2 經(jīng)驗(yàn)風(fēng)險(xiǎn)與結(jié)構(gòu)風(fēng)險(xiǎn)\t121
8.1.3 線性模型與損失函數(shù)\t122
8.1.4 邏輯回歸與線性支持向量機(jī)(Linear SVM)\t123
8.2 二分類評(píng)估方法\t125
8.2.1 基本指標(biāo)\t126
8.2.2 綜合指標(biāo)\t128
8.2.3 評(píng)估曲線\t131
8.3 數(shù)據(jù)探索\t136
8.3.1 基本統(tǒng)計(jì)\t138
8.3.2 相關(guān)性\t140
8.4 訓(xùn)練集和測試集\t144
8.5 邏輯回歸模型\t145
8.6 線性SVM模型\t147
8.7 模型評(píng)估\t149
8.8 特征的多項(xiàng)式擴(kuò)展\t153
8.9 因子分解機(jī)\t157
第9章 樸素貝葉斯模型與決策樹模型\t160
9.1 樸素貝葉斯模型\t160
9.2 決策樹模型\t162
9.2.1 決策樹的分裂指標(biāo)定義\t165
9.2.2 常用的決策樹算法\t167
9.2.3 指標(biāo)計(jì)算示例\t169
9.2.4 分類樹與回歸樹\t172
9.2.5 經(jīng)典的決策樹示例\t173
9.3 數(shù)據(jù)探索\t176
9.4 使用樸素貝葉斯方法\t179
9.5 蘑菇分類的決策樹\t185
第10章 特征的轉(zhuǎn)化\t191
10.1 整體流程\t195
10.1.1 特征啞元化\t197
10.1.2 特征的重要性\t198
10.2 減少模型特征的個(gè)數(shù)\t200
10.3 離散特征轉(zhuǎn)化\t202
10.3.1 獨(dú)熱編碼\t202
10.3.2 特征哈希\t204
第11章 構(gòu)造新特征\t207
11.1 數(shù)據(jù)探索\t208
11.2 思路\t210
11.2.1 用戶和品牌的各種特征\t211
11.2.2 二分類模型訓(xùn)練\t212
11.3 計(jì)算訓(xùn)練集\t213
11.3.1 原始數(shù)據(jù)劃分\t213
11.3.2 計(jì)算特征\t214
11.3.3 計(jì)算標(biāo)簽\t222
11.4 正負(fù)樣本配比\t224
11.5 決策樹\t226
11.6 集成學(xué)習(xí)\t227
11.6.1 Bootstrap aggregating\t228
11.6.2 Boosting\t229
11.6.3 隨機(jī)森林與GBDT\t232
11.7 使用隨機(jī)森林算法\t233
11.8 使用GBDT算法\t234
第12章 從二分類到多分類\t235
12.1 多分類模型評(píng)估方法\t235
12.1.1 綜合指標(biāo)\t237
12.1.2 關(guān)于每個(gè)標(biāo)簽值的二分類指標(biāo)\t238
12.1.3 Micro、Macro、Weighted計(jì)算的指標(biāo)\t239
12.2 數(shù)據(jù)探索\t241
12.3 使用樸素貝葉斯進(jìn)行多分類\t244
12.4 二分類器組合\t246
12.5 Softmax算法\t249
12.6 多層感知器分類器\t253
第13章 常用多分類算法\t256
13.1 數(shù)據(jù)準(zhǔn)備\t256
13.1.1 讀取MNIST數(shù)據(jù)文件\t257
13.1.2 稠密向量與稀疏向量\t258
13.1.3 標(biāo)簽值的統(tǒng)計(jì)信息\t261
13.2 Softmax算法\t262
13.3 二分類器組合\t264
13.4 多層感知器分類器\t265
13.5 決策樹與隨機(jī)森林\t267
13.6 K最近鄰算法\t270
第14章 在線學(xué)習(xí)\t273
14.1 整體流程\t273
14.2 數(shù)據(jù)準(zhǔn)備\t275
14.3 特征工程\t277
14.4 特征工程處理數(shù)據(jù)\t279
14.5 在線訓(xùn)練\t280
14.6 模型過濾\t283
第15章 回歸的由來\t286
15.1 平均數(shù)\t287
15.2 向平均數(shù)方向的回歸\t288
15.3 線性回歸\t289
第16章 常用回歸算法\t292
16.1 回歸模型的評(píng)估指標(biāo)\t292
16.2 數(shù)據(jù)探索\t294
16.3 線性回歸\t297
16.4 決策樹與隨機(jī)森林\t300
16.5 GBDT回歸\t301
第17章 常用聚類算法\t303
17.1 聚類評(píng)估指標(biāo)\t304
17.1.1 基本評(píng)估指標(biāo)\t304
17.1.2 基于標(biāo)簽值的評(píng)估指標(biāo)\t306
17.2 K-Means聚類\t308
17.2.1 算法簡介\t308
17.2.2 K-Means實(shí)例\t309
17.3 高斯混合模型\t314
17.3.1 算法介紹\t314
17.3.2 GMM實(shí)例\t316
17.4 二分K-Means聚類\t317
17.5 基于經(jīng)緯度的聚類\t320
第18章 批式與流式聚類\t324
18.1 稠密向量與稀疏向量\t324
18.2 使用聚類模型預(yù)測流式數(shù)據(jù)\t326
18.3 流式聚類\t329
第19章 主成分分析\t331
19.1 主成分的含義\t333
19.2 兩種計(jì)算方式\t337
19.3 在聚類方面的應(yīng)用\t339
19.4 在分類方面的應(yīng)用\t343
第20章 超參數(shù)搜索\t347
20.1 示例一:嘗試正則系數(shù)\t348
20.2 示例二:搜索GBDT超參數(shù)\t349
20.3 示例三:最佳聚類個(gè)數(shù)\t350
第21章 文本分析\t353
21.1 數(shù)據(jù)探索\t353
21.2 分詞\t355
21.2.1 中文分詞\t356
21.2.2 Tokenizer和RegexTokenizer\t359
21.3 詞頻統(tǒng)計(jì)\t363
21.4 單詞的區(qū)分度\t365
21.5 抽取關(guān)鍵詞\t367
21.5.1 原理簡介\t367
21.5.2 示例\t369
21.6 文本相似度\t371
21.6.1 文本成對(duì)比較\t372
21.6.2 最相似的TopN\t375
21.7 主題模型\t387
21.7.1 LDA模型\t388
21.7.2 新聞的主題模型\t390
21.7.3 主題與原始分類的對(duì)比\t392
21.8 組件使用小結(jié)\t396
第22章 單詞向量化\t398
22.1 單詞向量預(yù)訓(xùn)練模型\t399
22.1.1 加載模型\t399
22.1.2 查找相似的單詞\t400
22.1.3 單詞向量\t402
22.2 單詞映射為向量\t406
第23章 情感分析\t412
23.1 使用提供的特征\t413
23.1.1 使用樸素貝葉斯方法\t416
23.1.2 使用邏輯回歸算法\t419
23.2 如何提取特征\t423
23.3 構(gòu)造更多特征\t426
23.4 模型保存與預(yù)測\t430
23.4.1 批式/流式預(yù)測任務(wù)\t430
23.4.2 嵌入式預(yù)測\t431
第24章 構(gòu)建推薦系統(tǒng)\t433
24.1 與推薦相關(guān)的組件介紹\t434
24.2 常用推薦算法\t437
24.2.1 協(xié)同過濾\t437
24.2.2 交替最小二乘法\t438
24.3 數(shù)據(jù)探索\t439
24.4 評(píng)分預(yù)測\t444
24.5 根據(jù)用戶推薦影片\t446
24.6 計(jì)算相似影片\t452
24.7 根據(jù)影片推薦用戶\t454
24.8 計(jì)算相似用戶\t457

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)