強(qiáng)化學(xué)習(xí)

定　價：￥128.00

作　者：	[美]菲爾·溫德爾博士（Phil Winder, Ph.D.）
出版社：	中國電力出版社
叢編項：
標(biāo)　簽：	暫缺

購買這本書可以去

ISBN：	9787519869618	出版時間：	2023-03-01	包裝：	平裝-膠訂
開本：	16開	頁數(shù)：		字?jǐn)?shù)：

內(nèi)容簡介

　　本書作者創(chuàng)辦了自己名字命名的研究型公司，本書涵蓋了從基本的構(gòu)建模塊到最z先進(jìn)的實踐。通過本書，你將探索強(qiáng)化學(xué)習(xí)的當(dāng)前狀態(tài)、關(guān)注工業(yè)應(yīng)用、學(xué)習(xí)大量算法，本書還有專門章節(jié)介紹如何將強(qiáng)化學(xué)習(xí)的解決方案部署到生產(chǎn)環(huán)節(jié)。這并不是一本隨用隨翻的工具書，書中包含很多數(shù)學(xué)知識，并期望讀者是熟悉機(jī)器學(xué)習(xí)的。本書的主要內(nèi)容有：學(xué)習(xí)強(qiáng)化學(xué)習(xí)是什么，以及算法如何解決具體問題。掌握強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識，包括馬爾可夫決策過程、動態(tài)規(guī)劃和時間差分算法。深入研究一系列基于值函數(shù)和政策梯度的算法。應(yīng)用先進(jìn)的強(qiáng)化學(xué)習(xí)解決方案，如元學(xué)習(xí)、分層學(xué)習(xí)、多智能體、模仿學(xué)習(xí)等。了解最z前沿的深度強(qiáng)化學(xué)習(xí)算法，包括Rainbow、PPO、TD3、SAC等。通過本書專門的配套網(wǎng)站獲得實踐代碼和案例。

作者簡介

　　Phil Winder博士是一名多學(xué)科交叉的軟件工程師、作家和科技顧問，同時也是溫德研究所的CEO。該研究所主要提供云計算科學(xué)咨詢，主營業(yè)務(wù)是幫助初創(chuàng)公司和大型企業(yè)改進(jìn)數(shù)據(jù)流程、平臺以及產(chǎn)品。作者于英國赫爾大學(xué)獲得電子工程碩士和博士學(xué)位，現(xiàn)居英國約克郡。譯者介紹鄒偉，睿客邦創(chuàng)始人、國內(nèi)資深A(yù)I專家，擅長利用AI技術(shù)解決工業(yè)、工程中的復(fù)雜問題。華東建筑設(shè)計研究總院研究員、山東交通學(xué)院客座教授、天津大學(xué)創(chuàng)業(yè)導(dǎo)師、中華中醫(yī)藥學(xué)會會員，領(lǐng)導(dǎo)睿客邦與全國二十多所高校、國企建立了AI聯(lián)合實驗室，完成50多個深度學(xué)習(xí)實踐項目，目前已出版多本機(jī)器學(xué)習(xí)、深度學(xué)習(xí)領(lǐng)域的專著和譯著。

圖書目錄

目錄
前言 .1
第1 章強(qiáng)化學(xué)習(xí)概述 .13
1.1 為什么現(xiàn)在就需要強(qiáng)化學(xué)習(xí)？ . 14
1.2 機(jī)器學(xué)習(xí) 15
1.3 強(qiáng)化學(xué)習(xí) 17
1.3.1 什么時候使用強(qiáng)化學(xué)習(xí) 19
1.3.2 強(qiáng)化學(xué)習(xí)的應(yīng)用場景 20
1.4 強(qiáng)化學(xué)習(xí)的種類 22
1.4.1 免模型學(xué)習(xí)或有模型學(xué)習(xí) . 22
1.4.2 智能體如何使用并更新它們的策略 23
1.4.3 離散或連續(xù)的行為 . 25
1.4.4 優(yōu)化方法. 25
1.4.5 策略評估和改進(jìn) . 26
1.5 強(qiáng)化學(xué)習(xí)的基本概念 . 27
1.5.1 歷史上第一個強(qiáng)化學(xué)習(xí)算法 . 28
1.5.2 強(qiáng)化學(xué)習(xí)和機(jī)器學(xué)習(xí)是一種東西嗎？ . 31
1.5.3 獎勵和反饋 32
1.6 強(qiáng)化學(xué)習(xí)的發(fā)展簡史 . 35
1.7 本章總結(jié) 37
1.8 擴(kuò)展閱讀 38
1.9 參考文獻(xiàn) 38
第2 章馬爾可夫決策過程，動態(tài)規(guī)劃，蒙特卡洛方法 44
2.1 多臂老虎機(jī)測試 44
2.1.1 獎勵工程. 45
2.1.2 策略評估：價值函數(shù) 45
2.1.3 策略改進(jìn)：選擇最佳動作 48
2.1.4 模擬環(huán)境. 50
2.1.5 運行實驗. 50
2.1.6 ε - 貪婪算法的改進(jìn). 52
2.2 馬爾可夫決策過程 . 54
2.2.1 庫存控制. 56
2.2.2 庫存控制仿真 . 60
2.3 策略與價值函數(shù) 62
2.3.1 打折的獎勵 62
2.3.2 用狀態(tài)?C 價值函數(shù)預(yù)測獎勵 64
2.3.3 用動作值函數(shù)預(yù)測獎勵 . 67
2.3.4 最優(yōu)策略. 69
2.4 蒙特卡洛策略生成 70
2.5 動態(tài)規(guī)劃的值迭代 72
2.5.1 值迭代的過程 74
2.5.2 數(shù)值迭代結(jié)果 76
2.6 總結(jié) 78
2.7 擴(kuò)展閱讀 79
2.8 參考文獻(xiàn) 79
第3 章時序差分學(xué)習(xí)，Q 學(xué)習(xí)和n 步算法 80
3.1 時序差分學(xué)習(xí)的相關(guān)公式 81
3.1.1 Q 學(xué)習(xí) . 83
3.1.2 SARSA 85
3.1.3 Q 學(xué)習(xí)與SARSA 方法的對比 . 87
3.1.4 案例解析：自動擴(kuò)展應(yīng)用程序容器以降低成本 . 90
3.2 行業(yè)實例：廣告中的實時競價 . 92
3.2.1 MDP 的定義 . 92
3.2.2 實時競價案例的環(huán)境 93
3.2.3 進(jìn)一步改進(jìn) 94
3.3 Q 學(xué)習(xí)的相關(guān)擴(kuò)展 96
3.3.1 雙重Q 學(xué)習(xí) 96
3.3.2 延遲Q 學(xué)習(xí) 97
3.3.3 各類版本的Q 學(xué)習(xí)之間的對比 98
3.3.4 對抗學(xué)習(xí). 98
3.4 n 步算法 99
3.5 有效跟蹤 104
3.6 有效跟蹤算法的擴(kuò)展 107
3.6.1 沃特金斯的Q(λ) 107
3.6.2 沃特金斯Q(λ) 的模糊擦除 . 108
3.6.3 快速Q(mào) 學(xué)習(xí) 108
3.6.4 積累式有效跟蹤與取代式有效跟蹤 108
3.7 總結(jié) . 109
3.8 擴(kuò)展閱讀 110
3.9 參考文獻(xiàn) 110
第4 章深度Q 網(wǎng)絡(luò) . 112
4.1 深度學(xué)習(xí)的體系結(jié)構(gòu) 113
4.1.1 基礎(chǔ)知識 113
4.1.2 深度學(xué)習(xí)架構(gòu) 114
4.1.3 深度學(xué)習(xí)庫 . 115
4.1.4 深度強(qiáng)化學(xué)習(xí) 117
4.2 深度Q 學(xué)習(xí) . 117
4.2.1 經(jīng)驗重放 118
4.2.2 克隆Q 網(wǎng)絡(luò) 118
4.2.3 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) 119
4.2.4 DQN 的實現(xiàn) 119
4.2.5 實際案例：倒立擺環(huán)境中的DQN 120
4.2.6 案例研究：減少建筑物的能源使用 125
4.3 彩虹DQN 126
4.3.1 分配強(qiáng)化學(xué)習(xí) 126
4.3.2 優(yōu)先經(jīng)驗重放 129
4.3.3 噪聲網(wǎng)絡(luò) 129
4.3.4 決斗網(wǎng)絡(luò) 129
4.4 實際案例：雅達(dá)利的彩虹DQN 130
4.4.1 結(jié)果 131
4.4.2 討論 132
4.5 其他DQN 改進(jìn) 134
4.5.1 改進(jìn)探索過程 135
4.5.2 改進(jìn)獎勵過程 136
4.5.3 從離線數(shù)據(jù)中進(jìn)行學(xué)習(xí) 137
4.6 總結(jié) . 139
4.7 擴(kuò)展閱讀 140
4.8 參考文獻(xiàn) 140
第5 章梯度策略 144
5.1 直接學(xué)習(xí)策略的優(yōu)勢 144
5.2 如何計算策略的梯度 145
5.3 策略梯度理論 . 146
5.4 策略函數(shù) 149
5.4 1 線性策略 149
5.4.2 其他策略 151
5.5 基本實現(xiàn) 152
5.5.1 蒙特卡洛算法（強(qiáng)化算法） 152
5.5.2 帶基線的強(qiáng)化算法 153
5.5.3 梯度方差的減小 157
5.5.4 n 步演員評論家和優(yōu)勢演員評論家（A2C） . 159
5.5.5 基于資格跡的演員評論家算法 . 164
5.5.6 基本策略梯度算法的比較 165
5.6 行業(yè)研究：為客戶自動提供產(chǎn)品 . 166
5.6.1 行業(yè)實例：Gym 環(huán)境中的購物車實驗 . 167
5.6.2 預(yù)設(shè)期望 168
5.6.3 購物車實驗環(huán)境的結(jié)果展示 169
5.7 總結(jié) . 173
5.8 擴(kuò)展閱讀 174
5.9 參考文獻(xiàn) 174
第6 章超越策略梯度 176
6.1 離線算法 177
6.1.1 重要性抽樣 177
6.1.2 行為和目標(biāo)策略 179
6.1.3 離線 Q 學(xué)習(xí) 180
6.1.4 梯度時差學(xué)習(xí) 180
6.1.5 Greedy-GQ 算法 181
6.1.6 離線演員評論家算法 . 182
6.2 決定性策略梯度 183
6.2.1 決定性策略梯度 183
6.2.2 深度確定性策略梯度 . 185
6.2.3 雙延遲DDPG 189
6.2.4 案例研究：利用到用戶評論的推薦算法 193
6.2.5 改進(jìn)DPG. 194
6.3 信賴域方法 195
6.3.1 Kullback-Leibler 散度 197
6.3.2 自然策略梯度與信任區(qū)域策略優(yōu)化 198
6.3.3 近端策略優(yōu)化 201
6.4 實際案例：在現(xiàn)實生活中使用伺服器 206
6.4.1 實驗設(shè)置 . 206
6.4.2 強(qiáng)化學(xué)習(xí)算法實現(xiàn) 207
6.4.3 增加算法的復(fù)雜度 210
6.4.4 模擬中的超參數(shù)調(diào)優(yōu) . 211
6.4.5 產(chǎn)生的策略 212
6.5 其他策略梯度算法 214
6.5.1 回溯（λ） 214
6.5.2 有經(jīng)驗重放的演員評論家（ACER） 214
6.5.3 使用Kronecker 因子信任區(qū)域的演員評論家算法（ACKTR） 215
6.5.4 更多相關(guān)方法 216
6.6 策略梯度算法的擴(kuò)展 216
6.7 總結(jié) . 217
6.7.1 應(yīng)該使用哪種算法？ . 217
6.7.2 關(guān)于異步方法的注意事項 218
6.8 擴(kuò)展閱讀 218
6.9 參考文獻(xiàn) 219
第7 章用熵方法學(xué)習(xí)所有可能的策略 225
7.1 什么是熵？ 225
7.2 最大熵強(qiáng)化學(xué)習(xí) 226
7.3 弱演員評論家算法 227
7.3.1 SAC 的實現(xiàn)細(xì)節(jié)與離散動作空間 228
7.3.2 自動調(diào)整溫度 229
7.3.3 案例研究：有助于減少交通擁堵的自動化交通管理系統(tǒng) 229
7.4 最大熵方法的推廣 231
7.4.1 熵的其他度量（以及策略集） . 231
7.4.2 基于雙重Q 學(xué)習(xí)上限的優(yōu)化探索 231
7.4.3 通過歷史經(jīng)驗重放改進(jìn)結(jié)果 232
7.4.4 軟策略梯度 . 232
7.4.5 軟Q 學(xué)習(xí)（及其擴(kuò)展） 232
7.4.6 路徑一致性學(xué)習(xí) 233
7.5 性能比較：SAC 與PPO 233
7.6 熵是如何激勵智能體進(jìn)行探索的？ . 235
7.7 行業(yè)實例：通過遙控車學(xué)習(xí)自動駕駛 240
7.7.1 問題描述 241
7.7.2 減少訓(xùn)練時間 241
7.7.3 夸張的動作 . 244
7.7.4 超參數(shù)探索 . 246
7.7.5 最終策略 246
7.7.6 進(jìn)一步改進(jìn) . 247
7.8 本章總結(jié) 248
7.8.1 策略梯度與軟Q 學(xué)習(xí)的等價性 249
7.8.2 這對今后的發(fā)展意味著什么？ . 249
7.8.3 這對目前來說意味著什么？ 249
7.9 參考文獻(xiàn) 250
第8 章改進(jìn)智能體的學(xué)習(xí)方式 253
8.1 關(guān)于MDP 的思考 . 254
8.1.1 部分可觀察馬爾可夫決策過程 . 254
8.1.2 案例研究：POMDP 在自動駕駛汽車中的應(yīng)用 256
8.1.3 上下文馬爾可夫決策過程 . 257
8.1.4 動作不斷變化的MDPs 257
8.1.5 正則化MDP 258
8.2 層次強(qiáng)化學(xué)習(xí) . 259
8.2.1 初級層次強(qiáng)化學(xué)習(xí) . 259
8.2.2 具有內(nèi)在獎勵的層次強(qiáng)化學(xué)習(xí)（HIRO） 260
8.2.3 學(xué)習(xí)技巧和無監(jiān)督學(xué)習(xí) 262
8.2.4 在HRL 中使用技能 263
8.2.5 HRL 研究結(jié)論 264
8.3 多智能體強(qiáng)化學(xué)習(xí) 265
8.3.1 MARL 的框架 265
8.3.2 集中式或分布式 267
8.3.3 單智能體算法 268
8.3.4 案例研究：單智能體分散學(xué)習(xí)在無人機(jī)中的應(yīng)用 . 269
8.3.5 集中學(xué)習(xí)，分散執(zhí)行 . 270
8.3.6 分散的學(xué)習(xí) . 272
8.3.7 其他的組合 . 273
8.3.8 MARL 的挑戰(zhàn) 274
8.3.9 MARL 的結(jié)論 275
8.4 專家的指導(dǎo) 276
8.4.1 克隆行為 276
8.4.2 模擬強(qiáng)化學(xué)習(xí) 276
8.4.3 反向強(qiáng)化學(xué)習(xí) 277
8.4.4 課程學(xué)習(xí) 279
8.5 其他案例 281
8.5.1 元學(xué)習(xí) 281
8.5.2 遷移學(xué)習(xí) 281
8.6 總結(jié) . 282
8.7 擴(kuò)展閱讀 283
8.8 參考文獻(xiàn) 285
第9 章強(qiáng)化學(xué)習(xí)實踐 293
9.1 強(qiáng)化學(xué)習(xí)的生命周期 293
9.2 問題定義：一個真正的強(qiáng)化學(xué)習(xí)項目到底包括什么？ . 299
9.2.1 強(qiáng)化學(xué)習(xí)問題是連續(xù)性問題 299
9.2.2 強(qiáng)化學(xué)習(xí)問題是戰(zhàn)略性問題 300
9.2.3 強(qiáng)化學(xué)習(xí)中的基礎(chǔ)指標(biāo) 302
9.2.4 學(xué)習(xí)類型 304
9.3 強(qiáng)化學(xué)習(xí)工程和改進(jìn) 309
9.3.1 項目過程 309
9.3.2 環(huán)境工程 310
9.3.3 狀態(tài)工程或狀態(tài)表示學(xué)習(xí) 313
9.3.4 策略工程 316
9.3.5 將策略映射到操作空間 322
9.3.6 探索 326
9.3.7 獎勵工程 333
9.4 總結(jié) . 337
9.5 擴(kuò)展閱讀 338
9.6 參考文獻(xiàn) 339
第10 章強(qiáng)化學(xué)習(xí)的生產(chǎn)部署 348
10.1 實現(xiàn)階段 . 349
10.1.1 框架 . 349
10.1.2 大規(guī)模強(qiáng)化學(xué)習(xí) 353
10.1.3 評價 . 361
10.2 部署 370
10.2.1 目標(biāo) . 371
10.2.2 體系架構(gòu) 374
10.2.3 輔助工具 376
10.2.4 安全、保障和道德 382
10.3 總結(jié) 389
10.4 擴(kuò)展閱讀 . 390
10.5 參考文獻(xiàn) . 392
第11 章結(jié)論與展望 . 400
11.1 提示和技巧 400
11.1.1 框架問題 400
11.1.2 你的數(shù)據(jù) 402
11.1.3 訓(xùn)練 . 403
11.1.4 評價 . 404
11.1.5 部署 . 404
11.2 調(diào)試 405
11.2.1 ${ALGORITHM_NAME} 不能解決${ENVIRONMENT}! 406
11.2.2 監(jiān)測調(diào)試 407
11.3 強(qiáng)化學(xué)習(xí)的未來 408
11.3.1 強(qiáng)化學(xué)習(xí)市場機(jī)會 409
11.3.2 強(qiáng)化學(xué)習(xí)的研究方向 410
11.4 結(jié)束語 416
11.4.1 未來下一步 417
11.4.2 現(xiàn)在輪到你了！ . 418
11.5 擴(kuò)展閱讀 . 418
11.6 參考文獻(xiàn) . 419
附錄A 兩種動作的Logistic 策略梯度 423
附錄B Softmax 的策略梯度 . 427