注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)人工智能Easy RL 強(qiáng)化學(xué)習(xí)教程

Easy RL 強(qiáng)化學(xué)習(xí)教程

Easy RL 強(qiáng)化學(xué)習(xí)教程

定 價(jià):¥99.90

作 者: 王琦,楊毅遠(yuǎn),江季 著
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787115584700 出版時(shí)間: 2022-02-01 包裝: 平裝
開本: 16開 頁(yè)數(shù): 268 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)及人工智能領(lǐng)域的一種重要方法,在游戲、自動(dòng)駕駛、機(jī)器人路線規(guī)劃等領(lǐng)域得到了廣泛的應(yīng)用。本書結(jié)合了李宏毅老師的“深度強(qiáng)化學(xué)習(xí)”、周博磊老師的“強(qiáng)化學(xué)習(xí)綱要”、李科澆老師的“世界冠軍帶你從零實(shí)踐強(qiáng)化學(xué)習(xí)”公開課的精華內(nèi)容,在理論嚴(yán)謹(jǐn)?shù)幕A(chǔ)上深入淺出地介紹馬爾可夫決策過(guò)程、蒙特卡洛方法、時(shí)序差分方法、Sarsa、Q 學(xué)習(xí)等傳統(tǒng)強(qiáng)化學(xué)習(xí)算法,以及策略梯度、近端策略優(yōu)化、深度Q 網(wǎng)絡(luò)、深度確定性策略梯度等常見深度強(qiáng)化學(xué)習(xí)算法的基本概念和方法,并以大量生動(dòng)有趣的例子幫助讀者理解強(qiáng)化學(xué)習(xí)問(wèn)題的建模過(guò)程以及核心算法的細(xì)節(jié)。此外,本書還提供較為全面的習(xí)題解答以及Python 代碼實(shí)現(xiàn),可以讓讀者進(jìn)行端到端、從理論到輕松實(shí)踐的全生態(tài)學(xué)習(xí),充分掌握強(qiáng)化學(xué)習(xí)算法的原理并能進(jìn)行實(shí)戰(zhàn)。本書適合對(duì)強(qiáng)化學(xué)習(xí)感興趣的讀者閱讀,也可以作為相關(guān)課程的配套教材。

作者簡(jiǎn)介

  王琦中國(guó)科學(xué)院大學(xué)碩士在讀,Datawhale成員。主要研究方向?yàn)樯疃葘W(xué)習(xí)、數(shù)據(jù)挖掘。曾獲中國(guó)大學(xué)生計(jì)算機(jī)設(shè)計(jì)大賽二等獎(jiǎng)、亞太地區(qū)大學(xué)生數(shù)學(xué)建模競(jìng)賽 (APMCM)二等獎(jiǎng)和“挑戰(zhàn)杯”競(jìng)賽江蘇省選拔賽二等獎(jiǎng),發(fā)表 SCI/EI 論文3篇。楊毅遠(yuǎn)清華大學(xué)碩士在讀, Datawhale成員。主要研究方向?yàn)闀r(shí)空數(shù)據(jù)挖掘、智能傳感系統(tǒng)、深度學(xué)習(xí)。曾獲全國(guó)大學(xué)生智能汽車競(jìng)賽總冠軍、中國(guó)國(guó)家獎(jiǎng)學(xué)金,發(fā)表SCI/EI論文7篇,其中以第一作者身份在SCI的Q1區(qū)、Q2區(qū)及中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)A、B類會(huì)議中發(fā)表論文4篇。江季北京大學(xué)碩士在讀, Datawhale成員。主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、機(jī)器人。曾獲大學(xué)生電子設(shè)計(jì)競(jìng)賽——2018年嵌入式系統(tǒng)專題邀請(qǐng)賽(英特爾杯)一等獎(jiǎng),發(fā)表頂會(huì)論文1篇、專利2項(xiàng)。

圖書目錄

第 1 章緒論 1

1.1 強(qiáng)化學(xué)習(xí)概述 1

1.1.1 強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí) 1

1.1.2 強(qiáng)化學(xué)習(xí)的例子 5

1.1.3 強(qiáng)化學(xué)習(xí)的歷史 7

1.1.4 強(qiáng)化學(xué)習(xí)的應(yīng)用 8

1.2 序列決策概述 10

1.2.1 智能體和環(huán)境 10

1.2.2 獎(jiǎng)勵(lì) 10

1.2.3 序列決策 10

1.3 動(dòng)作空間 12

1.4 強(qiáng)化學(xué)習(xí)智能體的組成部分和類型 12

1.4.1 策略 13

1.4.2 價(jià)值函數(shù) 13

1.4.3 模型 14

1.4.4 強(qiáng)化學(xué)習(xí)智能體的類型 16

1.5 學(xué)習(xí)與規(guī)劃 19

1.6 探索和利用 20

1.7 強(qiáng)化學(xué)習(xí)實(shí)驗(yàn) 22

1.7.1 Gym 23

1.7.2 MountainCar-v0 例子27

1.8 關(guān)鍵詞 30

1.9 習(xí)題 31

1.10 面試題 32

參考文獻(xiàn) 32



第 2 章馬爾可夫決策過(guò)程 33

2.1 馬爾可夫過(guò)程 34

2 | Easy RL:強(qiáng)化學(xué)習(xí)教程

2.1.1 馬爾可夫性質(zhì) 34

2.1.2 馬爾可夫過(guò)程/馬爾可夫鏈 34

2.1.3 馬爾可夫過(guò)程的例子 35

2.2 馬爾可夫獎(jiǎng)勵(lì)過(guò)程 36

2.2.1 回報(bào)與價(jià)值函數(shù) 36

2.2.2 貝爾曼方程 38

2.2.3 計(jì)算馬爾可夫獎(jiǎng)勵(lì)過(guò)程價(jià)值的迭代算法 42

2.2.4 馬爾可夫獎(jiǎng)勵(lì)過(guò)程的例子 43

2.3 馬爾可夫決策過(guò)程 44

2.3.1 馬爾可夫決策過(guò)程中的策略 44

2.3.2 馬爾可夫決策過(guò)程和馬爾可夫過(guò)程/馬爾可夫獎(jiǎng)勵(lì)過(guò)程的區(qū)別 45

2.3.3 馬爾可夫決策過(guò)程中的價(jià)值函數(shù) 45

2.3.4 貝爾曼期望方程 46

2.3.5 備份圖47

2.3.6 策略評(píng)估 49

2.3.7 預(yù)測(cè)與控制 51

2.3.8 動(dòng)態(tài)規(guī)劃 53

2.3.9 使用動(dòng)態(tài)規(guī)劃進(jìn)行策略評(píng)估 53

2.3.10 馬爾可夫決策過(guò)程控制 56

2.3.11 策略迭代 58

2.3.12 價(jià)值迭代 61

2.3.13 策略迭代與價(jià)值迭代的區(qū)別 63

2.3.14 馬爾可夫決策過(guò)程中的預(yù)測(cè)和控制總結(jié) 66

2.4 關(guān)鍵詞 67

2.5 習(xí)題 68

2.6 面試題 69

參考文獻(xiàn) 69



第3 章表格型方法 70

3.1 馬爾可夫決策過(guò)程 70

3.1.1 有模型71

3.1.2 免模型72

3.1.3 有模型與免模型的區(qū)別 73

3.2 Q 表格 73

3.3 免模型預(yù)測(cè) 77

3.3.1 蒙特卡洛方法 77

3.3.2 時(shí)序差分方法 80

3.3.3 動(dòng)態(tài)規(guī)劃方法、蒙特卡洛方法以及時(shí)序差分方法的自舉和采樣 86

3.4 免模型控制 88

3.4.1 Sarsa:同策略時(shí)序差分控制 91

3.4.2 Q 學(xué)習(xí):異策略時(shí)序差分控制 94

3.4.3 同策略與異策略的區(qū)別 97

3.5 使用Q 學(xué)習(xí)解決懸崖尋路問(wèn)題 98

3.5.1 CliffWalking-v0 環(huán)境簡(jiǎn)介 98

3.5.2 強(qiáng)化學(xué)習(xí)基本接口 100

3.5.3 Q 學(xué)習(xí)算法 102

3.5.4 結(jié)果分析 103

3.6 關(guān)鍵詞 104

3.7 習(xí)題105

3.8 面試題 105

參考文獻(xiàn) 105



第4 章策略梯度 106

4.1 策略梯度算法 106

4.2 策略梯度實(shí)現(xiàn)技巧 115

4.2.1 技巧1:添加基線 115

4.2.2 技巧2:分配合適的分?jǐn)?shù) 117

4.3 REINFORCE:蒙特卡洛策略梯度 119

4.4 關(guān)鍵詞 125

4.5 習(xí)題125

4.6 面試題 125

參考文獻(xiàn) 126



第5 章近端策略優(yōu)化 127

5.1 從同策略到異策略 127

5.2 近端策略優(yōu)化 133

5.2.1 近端策略優(yōu)化懲罰 134

4 | Easy RL:強(qiáng)化學(xué)習(xí)教程

5.2.2 近端策略優(yōu)化裁剪 135

5.3 關(guān)鍵詞 138

5.4 習(xí)題139

5.5 面試題 139

參考文獻(xiàn) 139



第6 章深度Q 網(wǎng)絡(luò) 140

6.1 狀態(tài)價(jià)值函數(shù) 140

6.2 動(dòng)作價(jià)值函數(shù) 145

6.3 目標(biāo)網(wǎng)絡(luò) 150

6.4 探索152

6.5 經(jīng)驗(yàn)回放 154

6.6 深度Q 網(wǎng)絡(luò)算法總結(jié)156

6.7 關(guān)鍵詞 157

6.8 習(xí)題158

6.9 面試題 159

參考文獻(xiàn) 159



第7 章深度Q 網(wǎng)絡(luò)進(jìn)階技巧 160

7.1 雙深度Q 網(wǎng)絡(luò) 160

7.2 競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò) 162

7.3 優(yōu)先級(jí)經(jīng)驗(yàn)回放 165

7.4 在蒙特卡洛方法和時(shí)序差分方法中取得平衡 166

7.5 噪聲網(wǎng)絡(luò) 167

7.6 分布式Q 函數(shù) 168

7.7 彩虹170

7.8 使用深度Q 網(wǎng)絡(luò)解決推車桿問(wèn)題 172

7.8.1 CartPole-v0 簡(jiǎn)介 172

7.8.2 深度Q 網(wǎng)絡(luò)基本接口 173

7.8.3 回放緩沖區(qū)175

7.8.4 Q 網(wǎng)絡(luò) 175

7.8.5 深度Q 網(wǎng)絡(luò)算法 176

7.8.6 結(jié)果分析 178

7.9 關(guān)鍵詞 179

7.10 習(xí)題 180

7.11 面試題 180

參考文獻(xiàn) 180



第8 章針對(duì)連續(xù)動(dòng)作的深度Q 網(wǎng)絡(luò) 181

8.1 方案1:對(duì)動(dòng)作進(jìn)行采樣182

8.2 方案2:梯度上升 182

8.3 方案3:設(shè)計(jì)網(wǎng)絡(luò)架構(gòu) 182

8.4 方案4:不使用深度Q 網(wǎng)絡(luò) 183

8.5 習(xí)題184



第9 章演員-評(píng)論員算法 185

9.1 策略梯度回顧 185

9.2 深度Q 網(wǎng)絡(luò)回顧 186

9.3 演員-評(píng)論員算法 187

9.4 優(yōu)勢(shì)演員-評(píng)論員算法 188

9.5 異步優(yōu)勢(shì)演員-評(píng)論員算法 190

9.6 路徑衍生策略梯度 191

9.7 與生成對(duì)抗網(wǎng)絡(luò)的聯(lián)系 195

9.8 關(guān)鍵詞 196

9.9 習(xí)題196

9.10 面試題 196



第 10 章深度確定性策略梯度 197

10.1 離散動(dòng)作與連續(xù)動(dòng)作的區(qū)別 197

10.2 深度確定性策略梯度199

10.3 雙延遲深度確定性策略梯度 203

10.4 使用深度確定性策略梯度解決倒立擺問(wèn)題 205

10.4.1 Pendulum-v1 簡(jiǎn)介 205

10.4.2 深度確定性策略梯度基本接口 206

10.4.3 Ornstein-Uhlenbeck 噪聲 207

10.4.4 深度確定性策略梯度算法 208

10.4.5 結(jié)果分析209

10.5 關(guān)鍵詞 211

10.6 習(xí)題 211

10.7 面試題 211

參考文獻(xiàn) 211



第 11 章稀疏獎(jiǎng)勵(lì)212

11.1 設(shè)計(jì)獎(jiǎng)勵(lì) 212

11.2 好奇心 214

11.3 課程學(xué)習(xí) 216

11.4 分層強(qiáng)化學(xué)習(xí) 219

11.5 關(guān)鍵詞 221

11.6 習(xí)題 222

參考文獻(xiàn) 222



第 12 章模仿學(xué)習(xí)223

12.1 行為克隆 223

12.2 逆強(qiáng)化學(xué)習(xí) 226

12.3 第三人稱視角模仿學(xué)習(xí) 231

12.4 序列生成和聊天機(jī)器人 232

12.5 關(guān)鍵詞 233

12.6 習(xí)題 233

參考文獻(xiàn) 234



第 13 章AlphaStar 論文解讀 235

13.1 AlphaStar 以及背景簡(jiǎn)介 235

13.2 AlphaStar 的模型輸入和輸出是什么呢?——環(huán)境設(shè)計(jì) 235

13.2.1 狀態(tài)(網(wǎng)絡(luò)的輸入) 236

13.2.2 動(dòng)作(網(wǎng)絡(luò)的輸出) 236

13.3 AlphaStar 的計(jì)算模型是什么呢?——網(wǎng)絡(luò)結(jié)構(gòu) 237

13.3.1 輸入部分237

13.3.2 中間過(guò)程239

13.3.3 輸出部分239

13.4 龐大的AlphaStar 如何訓(xùn)練呢?——學(xué)習(xí)算法 240

13.4.1 監(jiān)督學(xué)習(xí)240

13.4.2 強(qiáng)化學(xué)習(xí)241

13.4.3 模仿學(xué)習(xí)242

13.4.4 多智能體學(xué)習(xí)/自學(xué)習(xí) 243

13.5 AlphaStar 實(shí)驗(yàn)結(jié)果如何呢?——實(shí)驗(yàn)結(jié)果 243

13.5.1 宏觀結(jié)果243

13.5.2 其他實(shí)驗(yàn)(消融實(shí)驗(yàn)) 244

13.6 關(guān)于AlphaStar 的總結(jié) 245

參考文獻(xiàn) 245

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)