注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)人工智能構(gòu)建實(shí)時(shí)機(jī)器學(xué)習(xí)系統(tǒng)

構(gòu)建實(shí)時(shí)機(jī)器學(xué)習(xí)系統(tǒng)

構(gòu)建實(shí)時(shí)機(jī)器學(xué)習(xí)系統(tǒng)

定 價(jià):¥59.00

作 者: 彭河森,汪涵 著
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787111575573 出版時(shí)間: 2017-09-01 包裝: 平裝
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書是國內(nèi)少有的從系統(tǒng)構(gòu)架角度介紹機(jī)器學(xué)習(xí)應(yīng)用的圖書,總結(jié)了筆者多年來在Google、微軟工作中積累的精華。書中內(nèi)容可以從工具、理論和案例三條線路來概括:工具方面,除了數(shù)據(jù)分析工具Pandas、機(jī)器學(xué)習(xí)工具Scikit Learn和Docker以外,還介紹了RabbitMQ、Elasticsearch,以及MySQL、Cassandra數(shù)據(jù)庫等。理論方面,不僅介紹了監(jiān)督式機(jī)器學(xué)習(xí)基礎(chǔ)、衡量和評(píng)價(jià)方法,機(jī)器學(xué)習(xí)的常見構(gòu)架,還在本書末尾對(duì)機(jī)器學(xué)習(xí)構(gòu)架的設(shè)計(jì)模式進(jìn)行了總結(jié),這樣的總結(jié)也屬國內(nèi)外業(yè)界首創(chuàng)。案例方面,采用美股交易秒級(jí)數(shù)據(jù)作為案例數(shù)據(jù),利用Pandas對(duì)秒級(jí)交易數(shù)據(jù)進(jìn)行分析,利用Scikit Learn對(duì)股票變化方向進(jìn)行預(yù)測(cè),還打造了一個(gè)以RabbitMQ為消息傳導(dǎo)中樞的實(shí)時(shí)處理系統(tǒng)。

作者簡(jiǎn)介

  彭河森,資深機(jī)器學(xué)習(xí)科學(xué)家,曾在Google、Amaz*n、微軟等公司從事一線機(jī)器學(xué)習(xí)構(gòu)架和開發(fā)工作,參與了Google實(shí)時(shí)數(shù)據(jù)警報(bào)、Amazo*產(chǎn)品廣告自動(dòng)化優(yōu)化、微軟必應(yīng)廣告等多項(xiàng)海量數(shù)據(jù)、延時(shí)要求苛刻的機(jī)器學(xué)習(xí)應(yīng)用工作。也參與Scikit-learn、Airflow、R等多項(xiàng)開源項(xiàng)目。對(duì)機(jī)器學(xué)習(xí)項(xiàng)目的生存期管理、架構(gòu)設(shè)計(jì)、軟件開發(fā)以及應(yīng)用關(guān)鍵有著豐富的經(jīng)驗(yàn)。汪涵,資深機(jī)器學(xué)習(xí)開發(fā)者,曾是Amaz*n、微軟、Quantlab、晨星等公司一線機(jī)器學(xué)習(xí)開發(fā)人員,參與了Amazo*AB檢驗(yàn)服務(wù)、微軟必應(yīng)搜索問答系統(tǒng)等多項(xiàng)關(guān)鍵大數(shù)據(jù)處理和機(jī)器學(xué)習(xí)應(yīng)用的構(gòu)架和開發(fā)工作。對(duì)機(jī)器學(xué)習(xí)、自然語言處理有著深刻的體會(huì)。

圖書目錄

前 言
第1部分 實(shí)時(shí)機(jī)器學(xué)習(xí)方法論
第1章 實(shí)時(shí)機(jī)器學(xué)習(xí)綜述 2
1.1 什么是機(jī)器學(xué)習(xí) 2
1.2 機(jī)器學(xué)習(xí)發(fā)展的前世今生 3
1.2.1 歷史上機(jī)器學(xué)習(xí)無法調(diào)和的難題 3
1.2.2 現(xiàn)代機(jī)器學(xué)習(xí)的新融合 4
1.3 機(jī)器學(xué)習(xí)領(lǐng)域分類 5
1.4 實(shí)時(shí)是個(gè)“萬靈丹” 6
1.5 實(shí)時(shí)機(jī)器學(xué)習(xí)的分類 7
1.5.1 硬實(shí)時(shí)機(jī)器學(xué)習(xí) 7
1.5.2 軟實(shí)時(shí)機(jī)器學(xué)習(xí) 7
1.5.3 批實(shí)時(shí)機(jī)器學(xué)習(xí) 8
1.6 實(shí)時(shí)應(yīng)用對(duì)機(jī)器學(xué)習(xí)的要求 8
1.7 案例:Netflix在機(jī)器學(xué)習(xí)競(jìng)賽中學(xué)到的經(jīng)驗(yàn) 9
1.7.1 Netflix 用戶信息被逆向工程 9
1.7.2 Netflix 最終勝出者模型無法在生產(chǎn)環(huán)境中使用 9
1.8 實(shí)時(shí)機(jī)器學(xué)習(xí)模型的生存期 10
第2章 實(shí)時(shí)監(jiān)督式機(jī)器學(xué)習(xí) 12
2.1 什么是監(jiān)督式機(jī)器學(xué)習(xí) 12
2.1.1 “江湖門派”對(duì)預(yù)測(cè)模型的
不同看法 13
2.1.2 工業(yè)界的學(xué)術(shù)門派 14
2.1.3 實(shí)時(shí)機(jī)器學(xué)習(xí)實(shí)戰(zhàn)的思路 15
2.2 怎樣衡量監(jiān)督式機(jī)器學(xué)習(xí)模型 16
2.2.1 統(tǒng)計(jì)量的優(yōu)秀 16
2.2.2 應(yīng)用業(yè)績(jī)的優(yōu)秀 20
2.3 實(shí)時(shí)線性分類器介紹 20
2.3.1 廣義線性模型的定義 20
2.3.2 訓(xùn)練線性模型 21
2.3.3 冷啟動(dòng)問題 22
第3章 數(shù)據(jù)分析工具 Pandas 23
3.1 顛覆 R 的 Pandas 23
3.2 Pandas 的安裝 24
3.3 利用 Pandas 分析實(shí)時(shí)股票報(bào)價(jià)數(shù)據(jù) 24
3.3.1 外部數(shù)據(jù)導(dǎo)入 25
3.3.2 數(shù)據(jù)分析基本操作 25
3.3.3 可視化操作 26
3.3.4 秒級(jí)收盤價(jià)變化率初探 28
3.4 數(shù)據(jù)分析的三個(gè)要點(diǎn) 30
3.4.1 不斷驗(yàn)證假設(shè) 30
3.4.2 全面可視化,全面監(jiān)控化 30
第4章 機(jī)器學(xué)習(xí)工具 Scikit-learn 31
4.1 如何站在風(fēng)口上?向Scikit-learn 學(xué)習(xí) 31
4.1.1 傳統(tǒng)的線下統(tǒng)計(jì)軟件 R 31
4.1.2 底層軟件黑盒子 Weka 32
4.1.3 跨界產(chǎn)品 Scikit-learn 33
4.1.4 Scikit-learn的優(yōu)勢(shì) 33
4.2 Scikit-learn 的安裝 34
4.3 Scikit-learn 的主要模塊 35
4.3.1 監(jiān)督式、非監(jiān)督式機(jī)器學(xué)習(xí) 35
4.3.2 建模函數(shù)fit和predict 36
4.3.3 數(shù)據(jù)預(yù)處理 38
4.3.4 自動(dòng)化建模預(yù)測(cè) Pipeline 39
4.4 利用 Scikit-learn 進(jìn)行股票價(jià)格波動(dòng)預(yù)測(cè) 40
4.4.1 數(shù)據(jù)導(dǎo)入和預(yù)處理 41
4.4.2 編寫專有時(shí)間序列數(shù)據(jù)預(yù)處理模塊 41
4.4.3 利用 Pipeline 進(jìn)行建模 43
4.4.4 評(píng)價(jià)建模效果 43
4.4.5 引入成交量和高維交叉項(xiàng)進(jìn)行建模 44
4.4.6 本書沒有告訴你的 45
第2部分 實(shí)時(shí)機(jī)器學(xué)習(xí)架構(gòu)
第5章 實(shí)時(shí)機(jī)器學(xué)習(xí)架構(gòu)設(shè)計(jì) 48
5.1 設(shè)計(jì)實(shí)時(shí)機(jī)器學(xué)習(xí)架構(gòu)的
四個(gè)要點(diǎn) 48
5.2 Lambda 架構(gòu)和主要成員 49
5.2.1 實(shí)時(shí)響應(yīng)層 49
5.2.2 快速處理層 50
5.2.3 批處理層 50
5.3 常用的實(shí)時(shí)機(jī)器學(xué)習(xí)架構(gòu) 50
5.3.1 瀑布流架構(gòu) 50
5.3.2 并行響應(yīng)架構(gòu) 51
5.3.3 實(shí)時(shí)更新模型混合架構(gòu) 52
5.4 小結(jié) 53
第6章 集群部署工具 Docker 55
6.1 Docker 的前世今生 55
6.2 容器虛擬機(jī)的基本組成部分 56
6.3 Docker 引擎命令行工具 57
6.3.1 Docker 引擎的安裝 57
6.3.2 Docker 引擎命令行的基本操作 58
6.4 通過 Dockerfile 配置容器虛擬機(jī) 61
6.4.1 利用 Dockerfile 配置基本容器虛擬機(jī) 62
6.4.2 利用 Dockerfile 進(jìn)行虛擬機(jī)和宿主機(jī)之間的文件傳輸 62
6.5 服務(wù)器集群配置工具Docker Compose 64
6.5.1 Docker Compose 的安裝 64
6.5.2 Docker Compose 的基本操作 64
6.5.3 利用 Docker Compose 創(chuàng)建網(wǎng)頁計(jì)數(shù)器集群 65
6.6 遠(yuǎn)端服務(wù)器配置工具Docker Machine 68
6.6.1 Docker Machine 的安裝 68
6.6.2 安裝 Oracle VirtualBox 69
6.6.3 創(chuàng)建和管理 VirtualBox中的虛擬機(jī) 69
6.6.4 在 Docker Machine 和 VirtualBox的環(huán)境中運(yùn)行集群 70
6.6.5 利用 Docker Machine 在 Digital Ocean 上配置運(yùn)行集群 71
6.7 其他有潛力的 Docker 工具 73
第7章 實(shí)時(shí)消息隊(duì)列和RabbitMQ 74
7.1 實(shí)時(shí)消息隊(duì)列 74
7.2 AMQP 和 RabbitMQ 簡(jiǎn)介 76
7.3 RabbitMQ的主要構(gòu)成部分 76
7.4 常用交換中心模式 78
7.4.1 直連結(jié)構(gòu) 78
7.4.2 扇形結(jié)構(gòu) 78
7.4.3 話題結(jié)構(gòu) 79
7.4.4 報(bào)頭結(jié)構(gòu) 79
7.5 消息傳導(dǎo)設(shè)計(jì)模式 79
7.5.1 任務(wù)隊(duì)列 80
7.5.2 Pub/Sub 發(fā)布/監(jiān)聽 80
7.5.3 遠(yuǎn)程命令 81
7.6 利用 Docker 快速部署RabbitMQ 82
7.7 利用 RabbitMQ 開發(fā)隊(duì)列服務(wù) 85
7.7.1 準(zhǔn)備案例材料 86
7.7.2 實(shí)時(shí)報(bào)價(jià)存儲(chǔ)服務(wù) 86
7.7.3 實(shí)時(shí)走勢(shì)預(yù)測(cè)服務(wù) 89
7.7.4 整合運(yùn)行實(shí)驗(yàn) 93
7.7.5 總結(jié)和改進(jìn) 95
第8章 實(shí)戰(zhàn)數(shù)據(jù)庫綜述 98
8.1 SQL 與 NoSQL,主流數(shù)據(jù)庫分類 98
8.1.1 關(guān)系型數(shù)據(jù)庫 99
8.1.2 非關(guān)系型數(shù)據(jù)庫 NoSQL 99
8.2 數(shù)據(jù)庫的性能 100
8.2.1 耐分割 100
8.2.2  一致性 101
8.2.3 可用性 101
8.2.4 CAP 定理 101
8.3 SQL和NoSQL對(duì)比 102
8.3.1 數(shù)據(jù)存儲(chǔ)、讀取方式 102
8.3.2 數(shù)據(jù)庫的擴(kuò)展方式 103
8.3.3 性能比較 103
8.4 數(shù)據(jù)庫的發(fā)展趨勢(shì) 103
8.4.1 不同數(shù)據(jù)庫之間自動(dòng)化同步更為方便 103
8.4.2 云數(shù)據(jù)庫的興起 104
8.4.3 底層和應(yīng)用層多層化 104
8.5 MySQL 簡(jiǎn)介 105
8.6 Cassandra簡(jiǎn)介 105
8.6.1 Cassandra交互方式簡(jiǎn)介 105
8.6.2 利用Docker安裝Cassandra 106
8.6.3 使用Cassandra存儲(chǔ)數(shù)據(jù) 106
第9章 實(shí)時(shí)數(shù)據(jù)監(jiān)控 ELK 集群 107
9.1 Elasticsearch、LogStash和Kibana 的前世今生 107
9.1.1 Elasticsearch 的平凡起家 108
9.1.2 LogStash 卑微的起源 108
9.1.3 Kibana 驚艷登場(chǎng) 109
9.1.4 ELK 協(xié)同作戰(zhàn) 109
9.2 Elasticsearch 基本架構(gòu) 109
9.2.1 文檔 110
9.2.2 索引和文檔類型 111
9.2.3 分片和冗余 112
9.2.4 Elasticsearch 和數(shù)據(jù)庫進(jìn)行比較 113
9.3 Elasticsearch 快速入門 113
9.3.1 用 Docker 運(yùn)行 Elasticsearch 容器虛擬機(jī) 113
9.3.2 創(chuàng)建存儲(chǔ)文檔、文檔類型和索引 114
9.3.3 搜索文檔 117
9.3.4 對(duì)偶搜索 120
9.4 Kibana 快速入門 124
9.4.1 利用 Docker 搭建ELK 集群 125
9.4.2 配置索引格式 127
9.4.3 交互式搜索 128
9.4.4 可視化操作 129
9.4.5 實(shí)時(shí)檢測(cè)面板 132
第10章 機(jī)器學(xué)習(xí)系統(tǒng)設(shè)計(jì)模式 134
10.1  設(shè)計(jì)模式的前世今生 134
10.1.1 單機(jī)設(shè)計(jì)模式逐漸式微 134
10.1.2 微服務(wù)取代設(shè)計(jì)模式的示例 135
10.1.3 微服務(wù)設(shè)計(jì)模式的興起 137
10.2 讀:高速鍵值模式 137
10.2.1 問題場(chǎng)景 137
10.2.2 解決方案 138
10.2.3 其他使用場(chǎng)景 139
10.3 讀:緩存高速查詢模式 139
10.3.1 問題場(chǎng)景 139
10.3.2 解決方案 139
10.3.3 適用場(chǎng)景 141
10.4 更新:異步數(shù)據(jù)庫更新模式 141
10.4.1 問題場(chǎng)景 141
10.4.2 解決方案 141
10.4.3 使用場(chǎng)景案例 142
10.5 更新:請(qǐng)求重定向模式 144
10.5.1 問題場(chǎng)景 144
10.5.2 解決方案 144
10.5.3 更新流程 145
10.5.4 使用場(chǎng)景案例 146
10.6 處理:硬實(shí)時(shí)并行模式 146
10.6.1 問題場(chǎng)景 146
10.6.2 解決方案 147
10.6.3 使用場(chǎng)景案例 147
10.7 處理:分布式任務(wù)隊(duì)列模式 148
10.7.1 問題場(chǎng)景 148
10.7.2 解決方案 149
10.7.3 Storm 作為分布式任務(wù)隊(duì)列 150
10.7.4 適用場(chǎng)景 151
10.7.5 結(jié)構(gòu)的演進(jìn) 152
10.8 處理:批實(shí)時(shí)處理模式 152
10.8.1 問題場(chǎng)景 152
10.8.2 解決方案 152
10.8.3 適用場(chǎng)景 153
第3部分 未來展望
第11章 Serverless 架構(gòu) 156
11.1 Serverless 架構(gòu)的前世今生 156
11.2 Serverless 架構(gòu)對(duì)實(shí)時(shí)
機(jī)器學(xué)習(xí)的影響 157
第12章 深度學(xué)習(xí)的風(fēng)口 159
12.1 深度學(xué)習(xí)的前世今生 159
12.2 深度學(xué)習(xí)的難點(diǎn) 161
12.3 如何選擇深度學(xué)習(xí)工具 161
12.3.1 與現(xiàn)有編程平臺(tái)、技能整合的難易程度 162
12.3.2 此平臺(tái)除做深度學(xué)習(xí)之外,還能做什么 163
12.3.3 深度學(xué)習(xí)平臺(tái)的成熟程度 164
12.4 未來發(fā)展方向 165

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)