注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)操作系統(tǒng)TensorFlow2強(qiáng)化學(xué)習(xí)手冊(cè)

TensorFlow2強(qiáng)化學(xué)習(xí)手冊(cè)

TensorFlow2強(qiáng)化學(xué)習(xí)手冊(cè)

定 價(jià):¥99.00

作 者: [美]普拉文·帕拉尼薩米(Praveen Palanisamy) 著,陳翔 王璽鈞 譯
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買這本書可以去


ISBN: 9787302643388 出版時(shí)間: 2023-12-01 包裝: 平裝-膠訂
開本: 16開 頁(yè)數(shù): 331 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書首先介紹深度強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)以及TensorFlow 2.x的**主要版本。隨后介紹OpenAI Gym、基于模型的RL和無(wú)模型的RL,并學(xué)習(xí)如何開發(fā)基本代理。深入介紹發(fā)現(xiàn)如何實(shí)施高級(jí)深度強(qiáng)化學(xué)習(xí)算法,例如行動(dòng)者批評(píng)、深度確定性策略梯度、深度Q網(wǎng)絡(luò)、近端策略優(yōu)化以及深度循環(huán)Q網(wǎng)絡(luò),以訓(xùn)練RL代理。同時(shí),本書通過(guò)構(gòu)建用于自動(dòng)完成任務(wù)的加密貨幣交易代理,股票/股票交易代理和智能代理等實(shí)例,探索現(xiàn)實(shí)世界中的強(qiáng)化學(xué)習(xí)。最后,本書介紹如何使用TensorFlow 2.x將深度強(qiáng)化學(xué)習(xí)代理部署到云并構(gòu)建跨平臺(tái)應(yīng)用程序。

作者簡(jiǎn)介

  陳翔,中山大學(xué)電子與信息工程學(xué)院教授,電子與信息工程實(shí)驗(yàn)教學(xué)中心副主任,深圳清華大學(xué)研究院兼職主任研究員,深圳空天通信終端應(yīng)用技術(shù)工程實(shí)驗(yàn)室副主任。主要研究方向?yàn)?G移動(dòng)通信與網(wǎng)絡(luò)、衛(wèi)星通信、軟件無(wú)線電,在國(guó)內(nèi)外知名期刊和會(huì)議上發(fā)表論文80余篇,獲授權(quán)發(fā)明專利40余項(xiàng),獲2017年度中國(guó)電子學(xué)會(huì)優(yōu)秀科技工作者稱號(hào)。 王璽鈞,中山大學(xué)電子與信息工程學(xué)院副教授。主要研究方向包括智能物聯(lián)網(wǎng)、無(wú)人機(jī)通信和群智學(xué)習(xí),發(fā)表論文90余篇,參撰著作1部,獲授權(quán)發(fā)明專利40余項(xiàng)。

圖書目錄

 
第 1 章  使用 TensorFlow 2.x 開發(fā)深度強(qiáng)化學(xué)習(xí)的基本模塊  1
1.1 技術(shù)要求  1
1.2 構(gòu)建訓(xùn)練強(qiáng)化學(xué)習(xí)智能體的環(huán)境和獎(jiǎng)勵(lì)機(jī)制  1
1.2.1 前期準(zhǔn)備  2
1.2.2 實(shí)現(xiàn)步驟  2
1.2.3 工作原理  8
1.3 針對(duì)離散動(dòng)作空間和離散決策問(wèn)題實(shí)現(xiàn)基于神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)策略    8
1.3.1 前期準(zhǔn)備  9
1.3.2 實(shí)現(xiàn)步驟  9
1.3.3 工作原理   13
1.4 針對(duì)連續(xù)動(dòng)作空間和連續(xù)控制問(wèn)題實(shí)現(xiàn)基于神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)策略  13
1.4.1 前期準(zhǔn)備   14
1.4.2 實(shí)現(xiàn)步驟   14
1.4.3 工作原理   19
1.5 將 OpenAI Gym 作為強(qiáng)化學(xué)習(xí)的訓(xùn)練環(huán)境  20
1.5.1 前期準(zhǔn)備   20
1.5.2 實(shí)現(xiàn)步驟   20
1.5.3 工作原理   22
1.6 構(gòu)建神經(jīng)網(wǎng)絡(luò)智能體  22
1.6.1 前期準(zhǔn)備   23
1.6.2 實(shí)現(xiàn)步驟   23
1.6.3 工作原理   26
1.7 構(gòu)建神經(jīng)網(wǎng)絡(luò)進(jìn)化智能體    27
1.7.1 前期準(zhǔn)備   27
1.7.2 實(shí)現(xiàn)步驟   27
1.7.3 工作原理   34
1.8 參考資料    34
第 2 章  基于價(jià)值、策略和行動(dòng)者-評(píng)論家的深度強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn). 35
2.1 技術(shù)要求    35
2.2 構(gòu)建用于訓(xùn)練強(qiáng)化學(xué)習(xí)智能體的隨機(jī)環(huán)境   35
2.2.1 前期準(zhǔn)備   36
2.2.2 實(shí)現(xiàn)步驟   37
2.2.3 工作原理   42
2.3 構(gòu)建基于價(jià)值的強(qiáng)化學(xué)習(xí)智能體算法  42
2.3.1 前期準(zhǔn)備   43
2.3.2 實(shí)現(xiàn)步驟   43
2.3.3 工作原理   46
2.4 實(shí)現(xiàn)時(shí)序差分學(xué)習(xí)  47
2.4.1 前期準(zhǔn)備   47
2.4.2 實(shí)現(xiàn)步驟   48
2.4.3 工作原理   52
2.5 構(gòu)建強(qiáng)化學(xué)習(xí)中的蒙特卡洛預(yù)測(cè)和控制算法    53
2.5.1 前期準(zhǔn)備   54
2.5.2 實(shí)現(xiàn)步驟   54
2.5.3 工作原理   58
2.6 實(shí)現(xiàn) SARSA 算法和對(duì)應(yīng)的強(qiáng)化學(xué)習(xí)智能體    59
2.6.1 前期準(zhǔn)備   59
2.6.2 實(shí)現(xiàn)步驟   59
2.6.3 工作原理   61
2.7 構(gòu)建基于 Q 學(xué)習(xí)的智能體  62
2.7.1 前期準(zhǔn)備   62
2.7.2 實(shí)現(xiàn)步驟   63
2.7.3 工作原理   64
2.8 實(shí)現(xiàn)策略梯度    65
2.8.1 前期準(zhǔn)備   65
2.8.2 實(shí)現(xiàn)步驟   66
2.8.3 工作原理   70
2.9 實(shí)現(xiàn)行動(dòng)者-評(píng)論家算法    70
2.9.1 前期準(zhǔn)備   70
2.9.2 實(shí)現(xiàn)步驟   71
2.9.3 工作原理   74
第 3 章  高級(jí)強(qiáng)化學(xué)習(xí)算法的實(shí)現(xiàn)    75
3.1 技術(shù)要求    75
3.2 實(shí)現(xiàn) Deep Q 學(xué)習(xí)算法、DQN 和 Double-DQN 智能體  75
3.2.1 前期準(zhǔn)備   76
3.2.2 實(shí)現(xiàn)步驟   76
3.2.3 工作原理   81
3.3 實(shí)現(xiàn) Dueling DQN 智能體  81
3.3.1 前期準(zhǔn)備   81
3.3.2 實(shí)現(xiàn)步驟   82
3.3.3 工作原理   86
3.4 實(shí)現(xiàn) Dueling Double DQN 算法和 DDDQN 智能體    86
3.4.1 前期準(zhǔn)備   87
3.4.2 實(shí)現(xiàn)步驟   87
3.4.3 工作原理   91
3.5 實(shí)現(xiàn)深度遞歸 Q 學(xué)習(xí)算法和 DRQN 智能體    91
3.5.1 前期準(zhǔn)備   91
3.5.2 實(shí)現(xiàn)步驟   92
3.5.3 工作原理   96
3.6 實(shí)現(xiàn)異步優(yōu)勢(shì)行動(dòng)者-評(píng)論家算法和 A3C 智能體    96
3.6.1 前期準(zhǔn)備   96
3.6.2 實(shí)現(xiàn)步驟   97
3.6.3 工作原理   104
3.7 實(shí)現(xiàn)近端策略優(yōu)化算法和 PPO 智能體    104
3.7.1 前期準(zhǔn)備   104
3.7.2 實(shí)現(xiàn)步驟   105
3.7.3 工作原理   112
3.8 實(shí)現(xiàn)深度確定性策略梯度算法和 DDPG 智能體  112
3.8.1 前期準(zhǔn)備   112
3.8.2 實(shí)現(xiàn)步驟   113
3.8.3 工作原理   119
第 4 章  現(xiàn)實(shí)世界中的強(qiáng)化學(xué)習(xí)——構(gòu)建加密貨幣交易智能體  120
4.1 技術(shù)要求  120
4.2 使用真實(shí)市場(chǎng)數(shù)據(jù)搭建一個(gè)比特幣交易強(qiáng)化學(xué)習(xí)平臺(tái)    120
4.2.1 前期準(zhǔn)備   121
4.2.2 實(shí)現(xiàn)步驟   121
4.2.3 工作原理   127
4.3 使用價(jià)格圖表搭建一個(gè)以太坊交易強(qiáng)化學(xué)習(xí)平臺(tái)   128
4.3.1 前期準(zhǔn)備   128
4.3.2 實(shí)現(xiàn)步驟   129
4.3.3 工作原理   135
4.4 為強(qiáng)化學(xué)習(xí)智能體搭建一個(gè)高級(jí)的加密貨幣交易平臺(tái)    135
4.4.1 前期準(zhǔn)備   135
4.4.2 實(shí)現(xiàn)步驟   136
4.4.3 工作原理   140
4.5 使用強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)加密貨幣交易智能體  141
4.5.1 前期準(zhǔn)備   141
4.5.2 實(shí)現(xiàn)步驟   141
4.5.3 工作原理   153
第 5 章  現(xiàn)實(shí)世界中的強(qiáng)化學(xué)習(xí)——建立股票/股份交易智能體    154
5.1 技術(shù)要求  154
5.2 使用真實(shí)的證券交易所數(shù)據(jù)搭建一個(gè)股票市場(chǎng)交易強(qiáng)化學(xué)習(xí)平臺(tái) 155
5.2.1 前期準(zhǔn)備   155
5.2.2 實(shí)現(xiàn)步驟   155
5.2.3 工作原理   159
5.3 使用價(jià)格圖表搭建一個(gè)股票市場(chǎng)交易強(qiáng)化學(xué)習(xí)平臺(tái)    159
5.3.1 前期準(zhǔn)備   160
5.3.2 實(shí)現(xiàn)步驟   160
5.3.3 工作原理   165
5.4 搭建一個(gè)高級(jí)的股票交易強(qiáng)化學(xué)習(xí)平臺(tái)以訓(xùn)練智能體模仿專業(yè)交易員    165
5.4.1 前期準(zhǔn)備   165
5.4.2 實(shí)現(xiàn)步驟   166
5.4.3 工作原理   171
第 6 章  現(xiàn)實(shí)世界中的強(qiáng)化學(xué)習(xí)——構(gòu)建智能體來(lái)完成您的待辦事項(xiàng)    173
6.1 技術(shù)要求  173
6.2 為現(xiàn)實(shí)世界的強(qiáng)化學(xué)習(xí)搭建學(xué)習(xí)環(huán)境    174
6.2.1 前期準(zhǔn)備   174
6.2.2 實(shí)現(xiàn)步驟   174
6.2.3 工作原理   181
6.3 構(gòu)建一個(gè)強(qiáng)化學(xué)習(xí)智能體來(lái)完成網(wǎng)絡(luò)上的任務(wù)——行動(dòng)號(hào)召  181
6.3.1 前期準(zhǔn)備   182
6.3.2 實(shí)現(xiàn)步驟   182
6.3.3 工作原理   192
6.4 構(gòu)建一個(gè)用于可視化頁(yè)面的自動(dòng)登錄機(jī)器人  193
6.4.1 前期準(zhǔn)備   194
6.4.2 實(shí)現(xiàn)步驟   194
6.4.3 工作原理   202
6.5 訓(xùn)練一個(gè)強(qiáng)化學(xué)習(xí)智能體來(lái)自動(dòng)為您的行程預(yù)訂航班    203
6.5.1 前期準(zhǔn)備   203
6.5.2 實(shí)現(xiàn)步驟   204
6.5.3 工作原理   211
6.6 訓(xùn)練一個(gè)強(qiáng)化學(xué)習(xí)智能體來(lái)管理您的電子郵件  212
6.6.1 前期準(zhǔn)備   212
6.6.2 實(shí)現(xiàn)步驟   213
6.6.3 工作原理   217
6.7 訓(xùn)練一個(gè)強(qiáng)化學(xué)習(xí)智能體來(lái)自動(dòng)管理您的社交媒體賬戶    218
6.7.1 前期準(zhǔn)備   218
6.7.2 實(shí)現(xiàn)步驟   219
6.7.3 工作原理   226
第 7 章  在云端部署深度強(qiáng)化學(xué)習(xí)智能體    228
7.1 技術(shù)要求  228
7.2 實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)智能體的運(yùn)行組件   228
7.2.1 前期準(zhǔn)備   229
7.2.2 實(shí)現(xiàn)步驟   229
7.2.3 工作原理   234
7.3 建立強(qiáng)化學(xué)習(xí)環(huán)境模擬器的服務(wù)   234
7.3.1 前期準(zhǔn)備   235
7.3.2 實(shí)現(xiàn)步驟   235
7.3.3 工作原理   241
7.4 使用遠(yuǎn)程模擬服務(wù)器訓(xùn)練強(qiáng)化學(xué)習(xí)智能體  242
7.4.1 前期準(zhǔn)備   242
7.4.2 實(shí)現(xiàn)步驟   242
7.4.3 工作原理   246
7.5 測(cè)試/評(píng)估強(qiáng)化學(xué)習(xí)智能體    246
7.5.1 前期準(zhǔn)備   247
7.5.2 實(shí)現(xiàn)步驟   247
7.5.3 工作原理   250
7.6 組裝強(qiáng)化學(xué)習(xí)智能體進(jìn)行部署——一個(gè)交易機(jī)器人    250
7.6.1 前期準(zhǔn)備   251
7.6.2 實(shí)現(xiàn)步驟   251
7.6.3 工作原理   256
7.7 將強(qiáng)化學(xué)習(xí)智能體部署到云端——交易機(jī)器人即服務(wù)    256
7.7.1 前期準(zhǔn)備   257
7.7.2 實(shí)現(xiàn)步驟   257
7.7.3 工作原理   259
第 8 章  使用分布式訓(xùn)練加速深度強(qiáng)化學(xué)習(xí)智能體開發(fā)    261
8.1 技術(shù)要求  261
8.2 使用 TensorFlow 2.x 的分布式深度學(xué)習(xí)模型——多 GPU 訓(xùn)練   261
8.2.1 前期準(zhǔn)備   262
8.2.2 實(shí)現(xiàn)步驟   262
8.2.3 工作原理   268
8.3 縱向擴(kuò)展與橫向擴(kuò)展——多機(jī)、多 GPU 訓(xùn)練  268
8.3.1 前期準(zhǔn)備   269
8.3.2 實(shí)現(xiàn)步驟   269
8.3.3 工作原理   272
8.4 大規(guī)模訓(xùn)練深度強(qiáng)化學(xué)習(xí)智能體——多 GPU PPO 智能體  272
8.4.1 前期準(zhǔn)備   272
8.4.2 實(shí)現(xiàn)步驟   272
8.4.3 工作原理   284
8.5 為加速訓(xùn)練的分布式深度強(qiáng)化學(xué)習(xí)的基礎(chǔ)模塊  284
8.5.1 前期準(zhǔn)備   284
8.5.2 實(shí)現(xiàn)步驟   285
8.5.3 工作原理   290
8.6 使用 Ray、Tune 和 RLLib 進(jìn)行大規(guī)模的深度強(qiáng)化學(xué)習(xí)智能體訓(xùn)練    291
8.6.1 前期準(zhǔn)備   291
8.6.2 實(shí)現(xiàn)步驟   291
8.6.3 工作原理   296
第 9 章  深度強(qiáng)化學(xué)習(xí)智能體的多平臺(tái)部署  297
9.1 技術(shù)要求  297
9.2 使用 TensorFlow Lite 組裝用于移動(dòng)和物聯(lián)網(wǎng)設(shè)備的深度強(qiáng)化學(xué)習(xí)智能體    297
9.2.1 前期準(zhǔn)備   298
9.2.2 實(shí)現(xiàn)步驟   298
9.2.3 工作原理   303
9.3 在移動(dòng)設(shè)備上部署強(qiáng)化學(xué)習(xí)智能體    304
9.3.1 前期準(zhǔn)備   305
9.3.2 實(shí)現(xiàn)步驟   306
9.3.3 工作原理   313
9.4 使用 TensorFlow.js 為 Web 和 Node.js 組裝深度強(qiáng)化學(xué)習(xí)智能體    313
9.4.1 前期準(zhǔn)備   313
9.4.2 實(shí)現(xiàn)步驟   314
9.4.3 工作原理   318
9.5 將深度強(qiáng)化學(xué)習(xí)智能體部署為服務(wù)    318
9.5.1 前期準(zhǔn)備   319
9.5.2 實(shí)現(xiàn)步驟   319
9.5.3 工作原理   323
9.6 為跨平臺(tái)部署組裝深度強(qiáng)化學(xué)習(xí)智能體   323
9.6.1 前期準(zhǔn)備   323
9.6.2 實(shí)現(xiàn)步驟   324
9.6.3 工作原理   330
 
 

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)