注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡人工智能強化學習

強化學習

強化學習

定 價:¥119.00

作 者: (荷)馬可·威寧,馬丁·范·奧特羅
出版社: 機械工業(yè)出版社
叢編項:
標 簽: 暫缺

ISBN: 9787111600220 出版時間: 2018-07-01 包裝:
開本: 頁數(shù): 字數(shù):  

內容簡介

  本書共有19章,分為六大部分,詳細介紹了強化學習中各領域的基本理論和新進展,內容包括:MDP、動態(tài)規(guī)劃、蒙特卡羅方法、批處理強化學習、TD學習、Q學習、策略迭代的小二乘法、遷移學習、貝葉斯強化學習、、一階邏輯MDP、層次式強化學習、演化計算、預測性定義狀態(tài)表示、去中心化的部分可觀察MDP、博弈論和多學習器強化學習等內容,并闡述強化學習與心理和神經(jīng)科學、游戲領域、機器人領域的關系和應用,后提出未來發(fā)展趨勢及研究熱點問題,有助于年輕的研究者了解整個強化學習領域,發(fā)現(xiàn)新的研究方向。本書適合作為高等院校機器學習相關課程的參考書,也可作為人工智能領域從業(yè)技術人員的參考用書。

作者簡介

暫缺《強化學習》作者簡介

圖書目錄

目  錄

\n


\n

Reinforcement Learning: State-of-the-Art

\n


\n

譯者序

\n


\n

序言

\n


\n

前言

\n


\n

作者清單

\n


\n

第一部分 緒論

\n


\n

第1章 強化學習和馬爾可夫決策過程  2

\n


\n

1.1 簡介  2

\n


\n

1.2 時序決策  3

\n


\n

1.2.1 接近時序決策  4

\n


\n

1.2.2 在線學習與離線學習  4

\n


\n

1.2.3 貢獻分配  5

\n


\n

1.2.4 探索–運用的平衡  5

\n


\n

1.2.5 反饋、目標和性能  5

\n


\n

1.2.6 表達  6

\n


\n

1.3 正式的框架  6

\n


\n

1.3.1 馬爾可夫決策過程  7

\n


\n

1.3.2 策略  9

\n


\n

1.3.3 最優(yōu)準則和減量  9

\n


\n

1.4 價值函數(shù)和貝爾曼方程  10

\n


\n

1.5 求解馬爾可夫決策過程  12

\n


\n

1.6 動態(tài)規(guī)劃:基于模型的解決方案  13

\n


\n

1.6.1 基本的動態(tài)規(guī)劃算法  13

\n


\n

1.6.2 高效的動態(tài)規(guī)劃算法  17

\n


\n

1.7 強化學習:無模型的解決方案  19

\n


\n

1.7.1 時序差分學習  20

\n


\n

1.7.2 蒙特卡羅方法  23

\n


\n

1.7.3 高效的探索和價值更新  24

\n


\n

1.8 總結  27

\n


\n

參考文獻  27

\n


\n

第二部分 高效的解決方案框架

\n


\n

第2章 批處理強化學習  32

\n


\n

2.1 簡介  32

\n


\n

2.2 批處理強化學習問題  33

\n


\n

2.2.1 批處理學習問題  33

\n


\n

2.2.2 增長批處理學習問題  34

\n


\n

2.3 批處理強化學習算法的基礎  34

\n


\n

2.4 批處理強化學習算法  37

\n


\n

2.4.1 基于核的近似動態(tài)規(guī)劃  37

\n


\n

2.4.2 擬合Q迭代  39

\n


\n

2.4.3 基于最小二乘的策略迭代  40

\n


\n

2.4.4 識別批處理算法  41

\n


\n

2.5 批處理強化學習理論  42

\n


\n

2.6 批處理強化學習的實現(xiàn)  43

\n


\n

2.6.1 神經(jīng)擬合Q迭代  44

\n


\n

2.6.2 控制應用中的神經(jīng)擬合Q迭代算法  45

\n


\n

2.6.3 面向多學習器的批處理強化學習  46

\n


\n

2.6.4 深度擬合Q迭代  48

\n


\n

2.6.5 應用/發(fā)展趨勢  49

\n


\n

2.7 總結  50

\n


\n

參考文獻  50

\n


\n

第3章 策略迭代的最小二乘法  53

\n


\n

3.1 簡介  53

\n


\n

3.2 預備知識:經(jīng)典策略迭代算法  54

\n


\n

3.3 近似策略評估的最小二乘法  55

\n


\n

3.3.1 主要原則和分類  55

\n


\n

3.3.2 線性情況下和矩陣形式的方程  57

\n


\n

3.3.3 無模型算法的實現(xiàn)  60

\n


\n

3.3.4 參考文獻  62

\n


\n

3.4 策略迭代的在線最小二乘法  63

\n


\n

3.5 例子:car-on-the-hill  64

\n


\n

3.6 性能保障  66

\n


\n

3.6.1 漸近收斂性和保證  66

\n


\n

3.6.2 有限樣本的保證  68

\n


\n

3.7 延伸閱讀  73

\n


\n

參考文獻  74

\n


\n

第4章 學習和使用模型  78

\n


\n

4.1 簡介  78

\n


\n

4.2 什么是模型  79

\n


\n

4.3 規(guī)劃  80

\n


\n

4.4 聯(lián)合模型和規(guī)劃  82

\n


\n

4.5 樣本復雜度  84

\n


\n

4.6 分解域  86

\n


\n

4.7 探索  88

\n


\n

4.8 連續(xù)域  91

\n


\n

4.9 實證比較  93

\n


\n

4.10 擴展  95

\n


\n

4.11 總結  96

\n


\n

參考文獻  97

\n


\n

第5章 強化學習中的遷移:框架和概觀  101

\n


\n

5.1 簡介  101

\n


\n

5.2 強化學習遷移的框架和分類  102

\n


\n

5.2.1 遷移框架  102

\n


\n

5.2.2 分類  104

\n


\n

5.3 固定狀態(tài)–動作空間中從源到目標遷移的方法  108

\n


\n

5.3.1 問題形式化  108

\n


\n

5.3.2 表示遷移  109

\n


\n

5.3.3 參數(shù)遷移  110

\n


\n

5.4 固定狀態(tài)–動作空間中跨多任務遷移的方法  111

\n


\n

5.4.1 問題形式化  111

\n


\n

5.4.2 實例遷移  111

\n


\n

5.4.3 表示遷移  112

\n


\n

5.4.4 參數(shù)遷移  113

\n


\n

5.5 不同狀態(tài)–動作空間中從源到目標任務遷移的方法  114

\n


\n

5.5.1 問題形式化  114

\n


\n

5.5.2 實例遷移  115

\n


\n

5.5.3 表示遷移  115

\n


\n

5.5.4 參數(shù)遷移  116

\n


\n

5.6 總結和開放性問題  116

\n


\n

參考文獻  117

\n


\n

第6章 探索的樣本復雜度邊界  122

\n


\n

6.1 簡介  122

\n


\n

6.2 預備知識  123

\n


\n

6.3 形式化探索效率  124

\n


\n

6.3.1 探索的樣本復雜度和PAC-MDP  124

\n


\n

6.3.2 遺憾最小化  125

\n


\n

6.3.3 平均損失  127

\n


\n

6.3.4 貝葉斯框架  127

\n


\n

6.4 通用PAC-MDP定理  128

\n


\n

6.5 基于模型的方法  130

\n


\n

6.5.1 Rmax  130

\n


\n

6.5.2 Rmax的泛化  132

\n


\n

6.6 無模型方法  138

\n


\n

6.7 總結  141

\n


\n

參考文獻  141

\n


\n

第三部分 建設性的表征方向

\n


\n

第7章 連續(xù)狀態(tài)和動作空間中的強化學習  146

\n


\n

7.1 簡介  146

\n


\n

7.1.1 連續(xù)域中的馬爾可夫決策過程  147

\n


\n

7.1.2 求解連續(xù)MDP的方法  148

\n


\n

7.2 函數(shù)逼近  149

\n


\n

7.2.1 線性函數(shù)逼近  150

\n


\n

7.2.2 非線性函數(shù)逼近  153

\n


\n

7.2.3 更新參數(shù)  154

\n


\n

7.3 近似強化學習  157

\n


\n

7.3.1 數(shù)值逼近  157

\n


\n

7.3.2 策略逼近  162

\n


\n

7.4 雙極車桿實驗  168

\n


\n

7.5 總結  171

\n


\n

參考文獻  171

\n


\n

第8章 綜述:求解一階邏輯馬爾可夫決策過程  179

\n


\n

8.1 關系世界中的順序決策簡介  179

\n


\n

8.1.1 馬爾可夫決策過程:代表性和可擴展性  180

\n


\n

8.1.2 簡短的歷史和與其他領域的聯(lián)系  181

\n


\n

8.2 用面向對象和關系擴展馬爾可夫決策過程  183

\n


\n

8.2.1 關系表示與邏輯歸納  183

\n


\n

8.2.2 關系型馬爾可夫決策過程  184

\n


\n

8.2.3 抽象問題和求解  184

\n


\n

8.3 基于模型的解決方案  186

\n


\n

8.3.1 貝爾曼備份的結構  186

\n


\n

8.3.2 確切的基于模型的算法  187

\n


\n

8.3.3 基于近似模型的算法  190

\n


\n

8.4 無模型的解決方案  192

\n


\n

8.4.1 固定泛化的價值函數(shù)學習  192

\n


\n

8.4.2 帶自適應泛化的價值函數(shù)  193

\n


\n

8.4.3 基于策略的求解技巧  196

\n


\n

8.5 模型、層級、偏置  198

\n


\n

8.6 現(xiàn)在的發(fā)展  201

\n


\n

8.7 總結和展望  203

\n


\n

參考文獻  204

\n


\n

第9章 層次式技術  213

\n


\n

9.1 簡介  213

\n


\n

9.2 背景  215

\n


\n

9.2.1 抽象動作  215

\n


\n

9.2.2 半馬爾可夫決策問題  216

\n


\n

9.2.3 結構  217

\n


\n

9.2.4 狀態(tài)抽象  218

\n


\n

9.2.5 價值函數(shù)分解  219

\n


\n

9.2.6 優(yōu)化  220

\n


\n

9.3 層次式強化學習技術  220

\n


\n

9.3.1 選項  221

\n


\n

9.3.2 HAMQ學習  222

\n


\n

9.3.3 MAXQ  223

\n


\n

9.4 學習結構  226

\n


\n

9.5 相關工作和當前研究  228

\n


\n

9.6 總結  230

\n


\n

參考文獻  230

\n


\n

第10章 針對強化學習的演化計算  235

\n


\n

10.1 簡介  235

\n


\n

10.2 神經(jīng)演化  237

\n


\n

10.3 TWEANN  239

\n


\n

10.3.1 挑戰(zhàn)  239

\n


\n

10.3.2 NEAT  240

\n


\n

10.4 混合方法  241

\n


\n

10.4.1 演化函數(shù)近似  242

\n


\n

10.4.2 XCS  243

\n


\n

10.5 協(xié)同演化  245

\n


\n

10.5.1 合作式協(xié)同演化  245

\n


\n

10.5.2 競爭式協(xié)同演化  246

\n


\n

10.6 生成和發(fā)展系統(tǒng)  247

\n


\n

10.7 在線方法  249

\n


\n

10.7.1 基于模型的技術  249

\n


\n

10.7.2 在線演化計算  250

\n


\n

10.8 總結  251

\n


\n

參考文獻  251

\n


\n

第四部分 概率模型

\n


\n

第11章 貝葉斯強化學習  260

\n


\n

11.1 簡介  260

\n


\n

11.2 無模型貝葉斯強化學習  261

\n


\n

11.2.1 基于價值函數(shù)的算法  261

\n


\n

11.2.2 策略梯度算法  264

\n


\n

11.2.3 演員–評論家算法  266

\n


\n

11.3 基于模型的貝葉斯強化學習  268

\n


\n

11.3.1 由POMDP表述的貝葉斯強化學習  268

\n


\n

11.3.2 通過動態(tài)規(guī)劃的貝葉斯強化學習  269

\n


\n

11.3.3 近似在線算法  271

\n


\n

11.3.4 貝葉斯多任務強化學習  272

\n


\n

11.3.5 集成先驗知識  273

\n


\n

11.4 有限樣本分析和復雜度問題  274

\n


\n

11.5 總結和討論  275

\n


\n

參考文獻  275

\n


\n

第12章 部分可觀察的馬爾可夫決策過程  279

\n


\n

12.1 簡介  279

\n


\n

12.2 部分可觀察環(huán)境中的決策  280

\n


\n

12.2.1 POMDP模型  280

\n


\n

12.2.2 連續(xù)和結構化的表達  281

\n


\n

12.2.3 優(yōu)化決策記憶  282

\n


\n

12.2.4 策略和價值函數(shù)  284

\n


\n

12.3 基于模型的技術  285

\n


\n

12.3.1 基于MDP的啟發(fā)式解決方案  285

\n


\n

12.3.2 POMDP的值迭代  286

\n


\n

12.3.3 確切的值迭代  288

\n


\n

12.3.4 基于點的值迭代方法  290

\n


\n

12.3.5 其他近似求解方法  291

\n


\n

12.4 無先驗模型的決策  292

\n


\n

12.4.1 無記憶技術  292

\n


\n

12.4.2 學習內部記憶  292

\n


\n

12.5 近期研究趨勢  294

\n


\n

參考文獻  295

\n


\n

第13章 預測性定義狀態(tài)表示  300

\n


\n

13.1 簡介  300

\n


\n

13.1.1 狀態(tài)是什么  301

\n


\n

13.1.2 哪一個狀態(tài)表示  301

\n


\n

13.1.3 為什么使用預測性定義模型  302

\n

......

\n


本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號