強化學習：原理與Python實戰(zhàn)

定　價：￥129.00

作　者：	肖智清
出版社：	機械工業(yè)出版社
叢編項：
標　簽：	暫缺

購買這本書可以去

當當網(wǎng) (￥96.70)

ISBN：	9787111728917	出版時間：	2023-08-01	包裝：	平裝-膠訂
開本：	16開	頁數(shù)：		字數(shù)：

內(nèi)容簡介

　　全書分為三個部分：？第1章：從零開始介紹強化學習的背景知識，介紹環(huán)境庫Gym的使用。？第2～15章：基于折扣獎勵離散時間Markov決策過程模型，介紹強化學習的主干理論和常見算法。采用數(shù)學語言推導強化學習的基礎(chǔ)理論，進而在理論的基礎(chǔ)上講解算法，并為算法提供配套代碼實現(xiàn)?；A(chǔ)理論的講解突出主干部分，算法講解全面覆蓋主流的強化學習算法，包括經(jīng)典的非深度強化學習算法和近年流行的強化學習算法。Python實現(xiàn)和算法講解一一對應(yīng)，對于深度強化學習算法還給出了基于TensorFlow 2和PyTorch 1的對照實現(xiàn)。？第16章：介紹其他強化學習模型，包括平均獎勵模型、連續(xù)時間模型、非齊次模型，半Markov模型、部分可觀測模型等，以便更好了解強化學習研究的全貌。

作者簡介

暫缺《強化學習：原理與Python實戰(zhàn)》作者簡介

圖書目錄

目錄
數(shù)學符號表
前言
第1章初識強化學習111強化學習及其關(guān)鍵元素1
1．2強化學習的應(yīng)用3
1．3智能體/環(huán)境接口4
1．4強化學習的分類6
1．4．1按任務(wù)分類6
1．4．2按算法分類8
1．5強化學習算法的性能指標9
1．6案例：基于Gym庫的智能體/環(huán)境接口10
1．6．1安裝Gym庫11
1．6．2使用Gym庫11
1．6．3小車上山13
1．7本章小結(jié)18
1．8練習與模擬面試19
第2章Markov決策過程2121Markov決策過程模型21
2．1．1離散時間Markov決策過程21
2．1．2環(huán)境與動力24
2．1．3策略26
2．1．4帶折扣的回報26
2．2價值27
2．2．1價值的定義28
2．2．2價值的性質(zhì)28
2．2．3策略的偏序和改進34
2．3帶折扣的分布35
2．3．1帶折扣的分布的定義35
2．3．2帶折扣的分布的性質(zhì)37
2．3．3帶折扣的分布和策略的等價性39
2．3．4帶折扣的分布下的期望40
2．4最優(yōu)策略與最優(yōu)價值41
2．4．1從最優(yōu)策略到最優(yōu)價值41
2．4．2最優(yōu)策略的存在性42
2．4．3最優(yōu)價值的性質(zhì)與Bellman
最優(yōu)方程43
2．4．4用線性規(guī)劃法求解最優(yōu)價值48
2．4．5用最優(yōu)價值求解最優(yōu)策略51
2．5案例：懸崖尋路52
2．5．1使用環(huán)境52
2．5．2求解策略價值53
2．5．3求解最優(yōu)價值54
2．5．4求解最優(yōu)策略55
2．6本章小結(jié)55
2．7練習與模擬面試57
第3章有模型數(shù)值迭代5931Bellman算子及其性質(zhì)59
3．2有模型策略迭代64
3．2．1策略評估65
3．2．2策略改進66
3．2．3策略迭代67
3．3價值迭代68
3．4自益與動態(tài)規(guī)劃69
3．5案例：冰面滑行70
3．5．1使用環(huán)境71
3．5．2有模型策略迭代求解73
3．5．3有模型價值迭代求解76
3．6本章小結(jié)76
3．7練習與模擬面試77
第4章回合更新價值迭代78
4．1同策回合更新79
4．1．1同策回合更新策略評估79
4．1．2帶起始探索的同策回合更新84
4．1．3基于柔性策略的同策回合更新86
4．2異策回合更新89
4．2．1重要性采樣89
4．2．2異策回合更新策略評估92
4．2．3異策回合更新最優(yōu)策略求解93
4．3實驗：21點游戲94
4．3．1使用環(huán)境94
4．3．2同策策略評估96
4．3．3同策最優(yōu)策略求解98
4．3．4異策策略評估101
4．3．5異策最優(yōu)策略求解102
4．4本章小結(jié)103
4、5練習與模擬面試104
第5章時序差分價值迭代10651時序差分目標106
5．2同策時序差分更新109
5．2．1時序差分更新策略評估109
5．2．2SARSA算法113
5．2．3期望SARSA算法115
5．3異策時序差分更新117
5．3．1基于重要性采樣的異策算法117
5．3．2Q學習119
5．3．3雙重Q學習120
5．4資格跡121
5．4．1λ回報122
5．4．2TD(λ)算法123
5．5案例：的士調(diào)度125
5．5．1使用環(huán)境126
5．5．2同策時序差分學習127
5．5．3異策時序差分學習130
5．5．4資格跡學習132
56本章小結(jié)134
57練習與模擬面試135
第6章函數(shù)近似方法137
6.1函數(shù)近似原理138
6.2基于梯度的參數(shù)更新139
6.2．1隨機梯度下降139
6.2．2半梯度下降141
6.2．3帶資格跡的半梯度下降142
6．3函數(shù)近似的收斂性144
6．3．1收斂的條件144
6．3．2Baird反例145
6．4深度Q網(wǎng)絡(luò)147
6．4．1經(jīng)驗回放148
6．4．2目標網(wǎng)絡(luò)151
6．4．3雙重深度Q網(wǎng)絡(luò)152
6．4．4決斗深度Q網(wǎng)絡(luò)153
6．5案例：小車上山154
6．5．1使用環(huán)境155
6．5．2用線性近似求解最優(yōu)策略156
6.5.3用深度Q網(wǎng)絡(luò)求解最優(yōu)策略161
6.6本章小結(jié)172
6.7練習與模擬面試172
第7章回合更新策略梯度方法17471策略梯度算法的原理174
7.1.1函數(shù)近似策略174
7.1.2策略梯度定理175
7.1.3策略梯度和極大似然估計的關(guān)系179
7.2同策回合更新策略梯度算法179
7.2.1簡單的策略梯度算法180
7.2.2帶基線的簡單策略梯度算法180
7.3異策回合更新策略梯度算法182
7.4案例：車桿平衡183
7.4.1用同策策略梯度算法求解最優(yōu)策略184
7.4.2用異策策略梯度算法求解最優(yōu)策略189
7.5本章小結(jié)195
7.6練習與模擬面試196
第8章執(zhí)行者/評論者197
8.1執(zhí)行者/評論者方法197
8.2同策執(zhí)行者/評論者算法198
8.2.1動作價值執(zhí)行者/評論者算法198
8.2.2優(yōu)勢執(zhí)行者/評論者算法199
8.2.3帶資格跡的執(zhí)行者/評論者算法200
8.3基于代理優(yōu)勢的同策算法201
8.3.1性能差別引理201
8.3.2代理優(yōu)勢202
8.3.3鄰近策略優(yōu)化203
8.4自然梯度和信賴域算法205
8.4.1KL散度與Fisher信息矩陣206
8.4.2代理優(yōu)勢的信賴域208
8.4.3自然策略梯度算法209
8.4.4信賴域策略優(yōu)化212
8.5重要性采樣異策執(zhí)行者/評論者算法213
8.6案例：雙節(jié)倒立擺214
8.6.1用同策執(zhí)行者/評論者算法求解最優(yōu)策略216
8.6.2用基于代理優(yōu)勢的同策算法求解最優(yōu)策略226
8.6.3用自然策略梯度和信賴域算法求解最優(yōu)策略230
8.6.4用重要性采樣異策執(zhí)行者/評論者算法求解最優(yōu)策略242
8.7本章小結(jié)246
8.8練習與模擬面試247
第9章連續(xù)動作空間的確定性策略248
9.1確定性策略梯度定理248
9.2同策確定性算法250
9.3異策確定性算法251
9.3.1基本的異策確定性執(zhí)行者/評論者算法251
9.3.2深度確定性策略梯度算法253
9.3.3雙重延遲深度確定性策略梯度算法254
9.4探索過程255
9.5案例：倒立擺的控制256
9.5.1用深