注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)人工智能深度強化學(xué)習(xí):學(xué)術(shù)前沿與實戰(zhàn)應(yīng)用

深度強化學(xué)習(xí):學(xué)術(shù)前沿與實戰(zhàn)應(yīng)用

深度強化學(xué)習(xí):學(xué)術(shù)前沿與實戰(zhàn)應(yīng)用

定 價:¥99.00

作 者: 劉馳,王占健,戴子彭 著
出版社: 機械工業(yè)出版社
叢編項: 智能科學(xué)與技術(shù)叢書
標 簽: 暫缺

購買這本書可以去


ISBN: 9787111646648 出版時間: 2020-04-01 包裝: 平裝
開本: 16開 頁數(shù): 388 字數(shù):  

內(nèi)容簡介

  本書共分為四篇,即深度強化學(xué)習(xí)、多智能體深度強化學(xué)習(xí)、多任務(wù)深度強化學(xué)習(xí)和深度強化學(xué)習(xí)的應(yīng)用。由淺入深、通俗易懂,涵蓋經(jīng)典算法和近幾年的前沿技術(shù)進展。特別是書中詳細介紹了每一種代表性算法的代碼原型實現(xiàn),旨在理論與實踐相結(jié)合,讓讀者學(xué)有所得、學(xué)有所用。 第一篇(包含第1~3章)主要講解深度強化學(xué)習(xí)基礎(chǔ),側(cè)重于單智能體強化學(xué)習(xí)算法,相對簡單,有助于初級讀者理解,同時涵蓋了近幾年的經(jīng)典算法和一些前沿的研究成果。 第二篇(包含第4~5章)主要側(cè)重于對多智能體深度強化學(xué)習(xí)的講解,從多智能體強化學(xué)習(xí)基本概念到相關(guān)算法的講解和分析,以多個極具代表性的算法為例帶領(lǐng)讀者逐步學(xué)習(xí)多智能體訓(xùn)練及控制的理論與方法。同時,還介紹了多智能體強化學(xué)習(xí)領(lǐng)域一些前沿學(xué)術(shù)成果。 第三篇(包含第6~7章)擴展到多任務(wù)場景,稱為多任務(wù)深度強化學(xué)習(xí)。首先介紹了多任務(wù)強化學(xué)習(xí)的基本概念和相關(guān)基礎(chǔ)知識,隨后講解了部分經(jīng)典的多任務(wù)深度強化學(xué)習(xí)算法。 第四篇(包含第8~11章)主要講解深度強化學(xué)習(xí)的實際應(yīng)用,涉及游戲、機器人控制、計算機視覺和自然語言處理四大領(lǐng)域。通過領(lǐng)域應(yīng)用中思想和方法的講解,培養(yǎng)讀者跨領(lǐng)域解決實際問題的能力,以幫助讀者熟練掌握和使用深度強化學(xué)習(xí)這一強大的方法來解決和優(yōu)化實際工程領(lǐng)域中的問題。

作者簡介

  劉馳 北京理工大學(xué)計算機學(xué)院副院長、教授、博士生導(dǎo)師,英國工程技術(shù)學(xué)會會士(IET Fellow),IEEE高級會員(IEEE Senior Member),英國計算機學(xué)會會士(Fellow of British Computer Society)和英國皇家藝術(shù)學(xué)會會士(Fellow of Royal Society of Arts)。分別于清華大學(xué)和英國帝國理工學(xué)院獲得學(xué)士和博士學(xué)位,曾任美國IBM T.J. Watson研究中心和IBM中國研究院研究主管,并在德國電信研究總院(柏林)任博士后研究員。研究方向為大數(shù)據(jù)與物聯(lián)網(wǎng)技術(shù)。主持了國家自然科學(xué)基金、國家重點研發(fā)計劃課題、工信部、教育部、裝發(fā)預(yù)研等20余省部級研究項目。共發(fā)表SCI/EI論文百余篇,其中ESI高被引論文2篇、CCF- A類論文20余篇,授權(quán)國內(nèi)外發(fā)明專利14項,編寫書籍9本,Google Scholar索引3500余次,H index為28。現(xiàn)任國家自然科學(xué)基金會評專家、科技部重點研發(fā)計劃會評專家、教育部科技獎評審專家、全國信標委技術(shù)委員會委員、中國電子學(xué)會理事、中國計算機學(xué)會青工委委員、中國計算機學(xué)會物聯(lián)網(wǎng)/大數(shù)據(jù)/普適計算專委會委員、中國電子學(xué)會物聯(lián)網(wǎng)專委會委員/副秘書長、中國自動化學(xué)會大數(shù)據(jù)專委會委員、中國通信學(xué)會物聯(lián)網(wǎng)專委會委員等;以及IEEE Transactions on Network Science and Engineering編委、IEEE ICC 2020 Symposium Chair for Next Generation Networking。入選了國家人社部“高層次留學(xué)人才回國資助計劃”、中國科協(xié)“青年人才托舉工程”、陜西省第八批“百人計劃(短期項目)”、中國產(chǎn)學(xué)研合作促進獎、中國電子學(xué)會優(yōu)秀科技工作者、國家“十二五”輕工業(yè)科技創(chuàng)新先進個人、2017年中國物聯(lián)網(wǎng)年度人物等。并獲得省部級一等獎1項、二等獎1項、三等獎1項。

圖書目錄

前言
數(shù)學(xué)符號
第一篇 深度強化學(xué)習(xí)
第1章 深度強化學(xué)習(xí)基礎(chǔ) 2
1.1 強化學(xué)習(xí) 2
1.1.1 強化學(xué)習(xí)的發(fā)展歷史 2
1.1.2 強化學(xué)習(xí)簡介 4
1.1.3 深度強化學(xué)習(xí)簡介 6
1.2 馬爾可夫?qū)傩院蜎Q策過程 9
1.2.1 馬爾可夫?qū)傩?9
1.2.2 馬爾可夫決策過程 11
1.3 強化學(xué)習(xí)核心概念 12
1.3.1 值函數(shù) 12
1.3.2 動態(tài)規(guī)劃 14
1.3.3 時間(序)差分 15
1.3.4 策略梯度 16
1.3.5 actor-critic方法 17
1.4 Q-learning 18
1.4.1 Q-learning簡介 18
1.4.2 算法 19
1.4.3 相關(guān)變量及影響 20
1.4.4 實現(xiàn)方法 21
第2章 深度強化學(xué)習(xí)算法 22
2.1 基于值的深度強化學(xué)習(xí)算法 22
2.1.1 深度Q網(wǎng)絡(luò) 22
2.1.2 深度雙Q網(wǎng)絡(luò) 27
2.1.3 競爭網(wǎng)絡(luò)架構(gòu) 31
2.1.4 平均值DQN 33
2.1.5 多DQN變種結(jié)合體:Rainbow 37
2.1.6 基于動作排除的DQN 42
2.2 基于策略的深度強化學(xué)習(xí)算法 46
2.2.1 循環(huán)確定性策略梯度 46
2.2.2 深度確定性策略梯度 55
2.2.3 信賴域策略優(yōu)化 62
2.2.4 近端策略優(yōu)化 68
2.3 基于模型的深度強化學(xué)習(xí)算法 73
2.3.1 基于模型加速的連續(xù)深度Q-learning 73
2.3.2 范例模型探索 80
2.3.3 基于模型集成的信賴域策略優(yōu)化 88
2.3.4 時間差分模型 95
2.4 基于分層的深度強化學(xué)習(xí)算法 102
2.4.1 分層深度強化學(xué)習(xí) 102
2.4.2 基于封建網(wǎng)絡(luò)的分層強化學(xué)習(xí) 109
2.4.3 基于隨機神經(jīng)網(wǎng)絡(luò)的分層強化學(xué)習(xí) 116
第3章 分布式深度強化學(xué)習(xí) 123
3.1 分布式系統(tǒng) 123
3.1.1 分布式系統(tǒng)簡介 123
3.1.2 分布式系統(tǒng)的發(fā)展歷史 124
3.1.3 架構(gòu)演進 125
3.1.4 主流分布式系統(tǒng)框架 128
3.2 分布式深度強化學(xué)習(xí)算法 129
3.2.1 分布式近端策略優(yōu)化 129
3.2.2 分布式深度確定性策略梯度 138
3.3 分布式深度強化學(xué)習(xí)框架 145
3.3.1 重要性加權(quán)Actor-Learner架構(gòu) 145
3.3.2 分布式優(yōu)先經(jīng)驗復(fù)用池 153
第二篇 多智能體深度強化學(xué)習(xí)
第4章 多智能體深度強化學(xué)習(xí)基礎(chǔ) 162
4.1 多智能體強化學(xué)習(xí) 162
4.1.1 多智能體強化學(xué)習(xí)發(fā)展歷史 162
4.1.2 多智能體強化學(xué)習(xí)簡介 164
4.1.3 優(yōu)勢和挑戰(zhàn) 166
4.2 部分可見馬爾可夫決策過程 166
4.2.1 POMDP模型 166
4.2.2 POMDP相關(guān)研究 169
4.2.3 POMDP應(yīng)用領(lǐng)域 170
第5章 多智能體深度強化學(xué)習(xí)算法 171
5.1 基于值函數(shù)的多智能體深度強化學(xué)習(xí) 171
5.1.1 基于DQN的多智能體網(wǎng)絡(luò) 171
5.1.2 增強智能體間學(xué)習(xí) 174
5.1.3 協(xié)同多智能體學(xué)習(xí)的價值分解網(wǎng)絡(luò) 178
5.1.4 多智能體深度強化學(xué)習(xí)的穩(wěn)定經(jīng)驗復(fù)用池 182
5.1.5 單調(diào)值函數(shù)分解 187
5.1.6 深度強化學(xué)習(xí)中的對立智能體建模 190
5.1.7 平均場多智能體強化學(xué)習(xí) 193
5.2 基于策略的多智能體深度強化學(xué)習(xí) 197
5.2.1 基于自身策略的其他智能體行為預(yù)測 197
5.2.2 雙重平均方案 201
5.2.3 多智能體深度強化學(xué)習(xí)的統(tǒng)一博弈論方法 208
5.3 基于AC框架的多智能體深度強化學(xué)習(xí) 212
5.3.1 多智能體深度確定性策略梯度 212
5.3.2 多智能體集中規(guī)劃的價值函數(shù)策略梯度 220
5.3.3 多智能體系統(tǒng)的策略表示學(xué)習(xí) 227
5.3.4 部分可觀察環(huán)境下的多智能體策略優(yōu)化 231
5.3.5 基于聯(lián)網(wǎng)智能體的完全去中心化MARL 236
第三篇 多任務(wù)深度強化學(xué)習(xí)
第6章 多任務(wù)深度強化學(xué)習(xí)基礎(chǔ) 244
6.1 簡介 244
6.1.1 理論概述 244
6.1.2 面臨的挑戰(zhàn) 247
6.2 策略蒸餾法 248
第7章 多任務(wù)深度強化學(xué)習(xí)算法 253
7.1 無監(jiān)督強化與輔助學(xué)習(xí) 253
7.1.1 算法介紹 253
7.1.2 算法分析 255
7.1.3 使用場景與優(yōu)勢分析 261
7.2 使用漸進式神經(jīng)網(wǎng)絡(luò)解決任務(wù)的復(fù)雜序列 262
7.2.1 算法介紹 262
7.2.2 算法分析 262
7.2.3 使用場景與優(yōu)勢分析 266
7.3 基于單智能體的多任務(wù)共享模型 267
7.3.1 算法介紹 267
7.3.2 算法分析 268
7.3.3 使用場景與優(yōu)勢分析 272
7.4 使用PopArt歸一化多任務(wù)更新幅度 273
7.4.1 算法介紹 273
7.4.2 算法分析 274
7.4.3 使用場景與優(yōu)勢分析 276
第四篇 深度強化學(xué)習(xí)的應(yīng)用
第8章 游戲 278
8.1 Gym Retro游戲平臺 278
8.1.1 平臺簡介 278
8.1.2 安裝Gym Retro平臺 281
8.1.3 安裝Retro UI 282
8.1.4 Gym Retro主要函數(shù)說明 283
8.2 相關(guān)應(yīng)用 285
8.2.1 Pong游戲 285
8.2.2 CartPole 291
8.2.3 Flappy Bird 298
8.2.4 Gradius 302
第9章 機器人控制 312
9.1 機器人導(dǎo)航 312
9.1.1 無地圖導(dǎo)航 312
9.1.2 社會感知機器人導(dǎo)航 316
9.2 路徑規(guī)劃 321
9.3 機器人視覺 324
第10章 計算機視覺 327
10.1 圖像 327
10.1.1 圖像字幕 327
10.1.2 圖像恢復(fù) 332
10.2 視頻 337
10.2.1 視頻字幕 337
10.2.2 視頻快進 345
10.2.3 視覺跟蹤 348
第11章 自然語言處理 354
11.1 與知識庫交互的多輪對話智能體 354
11.1.1 概率KB查找 355
11.1.2 端到端KB-InfoBot 356
11.1.3 總結(jié) 359
11.2 魯棒遠程監(jiān)督關(guān)系提取 359
11.2.1 問題表述 360
11.2.2 使用基于策略的智能體重新分配訓(xùn)練數(shù)據(jù)集 363
11.2.3 總結(jié) 363
11.3 非成對情感–情感翻譯 363
11.3.1 問題表述 363
11.3.2 訓(xùn)練算法 366
11.3.3 總結(jié) 367
縮寫參照表 368
常用詞中英文對照 371
參考文獻 374

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號