注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)深度實(shí)踐Spark機(jī)器學(xué)習(xí)

深度實(shí)踐Spark機(jī)器學(xué)習(xí)

深度實(shí)踐Spark機(jī)器學(xué)習(xí)

定 價(jià):¥69.00

作 者: 吳茂貴、郁明敏、朱鳳云、張粵磊、楊本法 等著
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 計(jì)算機(jī)/網(wǎng)絡(luò) 人工智能

ISBN: 9787111589952 出版時(shí)間: 2018-03-01 包裝: 平裝
開本: 16開 頁數(shù): 234 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書以新的Spark2.0為技術(shù)基礎(chǔ),重點(diǎn)講解了如何構(gòu)建機(jī)器學(xué)習(xí)系統(tǒng)以及如何實(shí)現(xiàn)機(jī)器學(xué)習(xí)流程的標(biāo)準(zhǔn)化,這兩點(diǎn)都是目前同類書中沒有的。第1~7章從概念、架構(gòu)、算法等角度介紹了機(jī)器學(xué)習(xí)的基本概念;第8~12章以實(shí)例為主,詳細(xì)講解了機(jī)器學(xué)習(xí)流程標(biāo)準(zhǔn)化涉及的關(guān)鍵技術(shù);第13章主要以在線數(shù)據(jù)或流式數(shù)據(jù)為主介紹了流式計(jì)算框架SparkStreaming;第14章重點(diǎn)講解了深度學(xué)習(xí)的框架TensorFlowOnSprak。此外,附錄部分提供了線性代數(shù)、概率統(tǒng)計(jì)及Scala的基礎(chǔ)知識(shí),幫助讀者更好地學(xué)習(xí)和掌握機(jī)器學(xué)習(xí)的相關(guān)內(nèi)容。

作者簡(jiǎn)介

  吳茂貴 郁明敏 朱鳳云 張粵磊 楊本法等

圖書目錄

目  錄?Contents
前言
第1章 了解機(jī)器學(xué)習(xí) 1
1.1 機(jī)器學(xué)習(xí)的定義 1
1.2 大數(shù)據(jù)與機(jī)器學(xué)習(xí) 2
1.3 機(jī)器學(xué)習(xí)、人工智能及深度學(xué)習(xí) 2
1.4 機(jī)器學(xué)習(xí)的基本任務(wù) 3
1.5 如何選擇合適算法 4
1.6 Spark在機(jī)器學(xué)習(xí)方面的優(yōu)勢(shì) 5
1.7 小結(jié) 5
第2章 構(gòu)建Spark機(jī)器學(xué)習(xí)系統(tǒng) 6
2.1 機(jī)器學(xué)習(xí)系統(tǒng)架構(gòu) 6
2.2 啟動(dòng)集群 7
2.3 加載數(shù)據(jù) 9
2.4 探索數(shù)據(jù) 10
2.4.1 數(shù)據(jù)統(tǒng)計(jì)信息 10
2.4.2 數(shù)據(jù)質(zhì)量分析 11
2.4.3 數(shù)據(jù)特征分析 12
2.4.4 數(shù)據(jù)的可視化 17
2.5 數(shù)據(jù)預(yù)處理 19
2.5.1 數(shù)據(jù)清理 20
2.5.2 數(shù)據(jù)變換 21
2.5.3 數(shù)據(jù)集成 22
2.5.4 數(shù)據(jù)歸約 23
2.6 構(gòu)建模型 25
2.7 模型評(píng)估 26
2.8 組裝 30
2.9 模型選擇或調(diào)優(yōu) 30
2.9.1 交叉驗(yàn)證 31
2.9.2 訓(xùn)練–驗(yàn)證切分 32
2.10 保存模型 32
2.11 小結(jié) 33
第3章 ML Pipeline原理與實(shí)戰(zhàn) 34
3.1 Pipeline簡(jiǎn)介 34
3.2 DataFrame 35
3.3 Pipeline組件 36
3.4 Pipeline原理 37
3.5 Pipeline實(shí)例 38
3.5.1 使用Estimator、Transformer和Param的實(shí)例 38
3.5.2 ML使用Pipeline的實(shí)例 40
3.6 小結(jié) 41
第4章 特征提取、轉(zhuǎn)換和選擇 42
4.1 特征提取 42
4.1.1 詞頻—逆向文件
頻率(TF-IDF) 42
4.1.2 Word2Vec 43
4.1.3 計(jì)數(shù)向量器 44
4.2 特征轉(zhuǎn)換 45
4.2.1 分詞器 45
4.2.2 移除停用詞 46
4.2.3 n-gram 47
4.2.4 二值化 48
4.2.5 主成分分析 48
4.2.6 多項(xiàng)式展開 50
4.2.7 離散余弦變換 50
4.2.8 字符串—索引變換 51
4.2.9  索引—字符串變換 53
4.2.10 獨(dú)熱編碼 54
4.2.11 向量—索引變換 57
4.2.12 交互式 58
4.2.13 正則化 59
4.2.14 規(guī)范化 60
4.2.15 最大值—最小值縮放 60
4.2.16 最大值—絕對(duì)值縮放 61
4.2.17 離散化重組 62
4.2.18 元素乘積 63
4.2.19 SQL轉(zhuǎn)換器 64
4.2.20 向量匯編 65
4.2.21 分位數(shù)離散化 66
4.3 特征選擇 67
4.3.1 向量機(jī) 67
4.3.2 R公式 69
4.3.3 卡方特征選擇 70
4.4 小結(jié) 71
第5章 模型選擇和優(yōu)化 72
5.1 模型選擇 72
5.2 交叉驗(yàn)證 73
5.3 訓(xùn)練驗(yàn)證拆分法 75
5.4 自定義模型選擇 76
5.5 小結(jié) 78
第6章 Spark MLlib基礎(chǔ) 79
6.1 Spark MLlib簡(jiǎn)介 80
6.2 Spark MLlib架構(gòu) 81
6.3 數(shù)據(jù)類型 82
6.4 基礎(chǔ)統(tǒng)計(jì) 84
6.4.1 摘要統(tǒng)計(jì) 84
6.4.2 相關(guān)性 84
6.4.3 假設(shè)檢驗(yàn) 85
6.4.4 隨機(jī)數(shù)據(jù)生成 85
6.5 RDD、Dataframe和Dataset 86
6.5.1 RDD 86
6.5.2 DatasetDataFrame 87
6.5.3 相互轉(zhuǎn)換 88
6.6 小結(jié) 89
第7章 構(gòu)建Spark ML推薦模型 90
7.1 推薦模型簡(jiǎn)介 91
7.2 數(shù)據(jù)加載 92
7.3 數(shù)據(jù)探索 94
7.4 訓(xùn)練模型 94
7.5 組裝 95
7.6 評(píng)估模型 96
7.7 模型優(yōu)化 96
7.8 小結(jié) 98
第8章 構(gòu)建Spark ML分類模型 99
8.1 分類模型簡(jiǎn)介 99
8.1.1 線性模型 100
8.1.2 決策樹模型 101
8.1.3 樸素貝葉斯模型 102
8.2 數(shù)據(jù)加載 102
8.3 數(shù)據(jù)探索 103
8.4 數(shù)據(jù)預(yù)處理 104
8.5 組裝 109
8.6 模型優(yōu)化 110
8.7 小結(jié) 113
第9章 構(gòu)建Spark ML回歸模型 114
9.1 回歸模型簡(jiǎn)介 115
9.2 數(shù)據(jù)加載 115
9.3 探索特征分布 117
9.4 數(shù)據(jù)預(yù)處理 120
9.4.1 特征選擇 121
9.4.2 特征轉(zhuǎn)換 121
9.5 組裝 122
9.6 模型優(yōu)化 124
9.7 小結(jié) 126
第10章 構(gòu)建Spark ML聚類模型 127
10.1 K-means模型簡(jiǎn)介 128
10.2 數(shù)據(jù)加載 129
10.3 探索特征的相關(guān)性 129
10.4 數(shù)據(jù)預(yù)處理 131
10.5 組裝 132
10.6 模型優(yōu)化 134
10.7 小結(jié) 136
第11章 PySpark 決策樹模型 137
11.1 PySpark 簡(jiǎn)介 138
11.2 決策樹簡(jiǎn)介 139
11.3 數(shù)據(jù)加載 140
11.3.1 原數(shù)據(jù)集初探 140
11.3.2 PySpark的啟動(dòng) 142
11.3.3 基本函數(shù) 142
11.4 數(shù)據(jù)探索 143
11.5 數(shù)據(jù)預(yù)處理 143
11.6 創(chuàng)建決策樹模型 145
11.7 訓(xùn)練模型進(jìn)行預(yù)測(cè) 146
11.8 模型優(yōu)化 149
11.8.1 特征值的優(yōu)化 149
11.8.2 交叉驗(yàn)證和網(wǎng)格參數(shù) 152
11.9 腳本方式運(yùn)行 154
11.9.1 在腳本中添加配置信息 154
11.9.2 運(yùn)行腳本程序 154
11.10 小結(jié) 154
第12章 SparkR樸素貝葉斯模型 155
12.1 SparkR簡(jiǎn)介 156
12.2 獲取數(shù)據(jù) 157
12.2.1 SparkDataFrame數(shù)據(jù)結(jié)構(gòu)
說明 157
12.2.2 創(chuàng)建SparkDataFrame 157
12.2.3 SparkDataFrame的常用操作 160
12.3 樸素貝葉斯分類器 162
12.3.1 數(shù)據(jù)探查 162
12.3.2 對(duì)原始數(shù)據(jù)集進(jìn)行轉(zhuǎn)換 163
12.3.3 查看不同船艙的生還率差異 163
12.3.4 轉(zhuǎn)換成SparkDataFrame格式的數(shù)據(jù) 165
12.3.5 模型概要 165
12.3.6 預(yù)測(cè) 165
12.3.7 評(píng)估模型 166
12.4 小結(jié) 167
第13章 使用Spark Streaming構(gòu)建在線學(xué)習(xí)模型 168
13.1 Spark Streaming簡(jiǎn)介 168
13.1.1 Spark Streaming常用術(shù)語 169
13.1.2 Spark Streaming處理流程 169
13.2 Dstream操作

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)