定 價:¥59.80
作 者: | 魏慶來,王飛躍 |
出版社: | 清華大學出版社 |
叢編項: | |
標 簽: | 暫缺 |
ISBN: | 9787302589723 | 出版時間: | 2022-07-01 | 包裝: | |
開本: | 16開 | 頁數(shù): | 字數(shù): |
第1章強化學習概論
\n1.1引言
\n1.2強化學習的發(fā)展歷程
\n1.3強化學習的研究現(xiàn)狀
\n1.4本書內(nèi)容架構
\n參考文獻
\n第2章馬爾可夫決策過程
\n2.1馬爾可夫決策過程
\n2.2策略與代價函數(shù)
\n2.3最優(yōu)策略與最優(yōu)代價函數(shù)
\n參考文獻
\n第3章動態(tài)規(guī)劃
\n3.1動態(tài)規(guī)劃的興起
\n3.2動態(tài)規(guī)劃基本思想: 多級決策過程
\n3.3最優(yōu)性原理與遞推方程
\n3.4離散時間動態(tài)規(guī)劃
\n3.5連續(xù)時間動態(tài)規(guī)劃
\n3.6動態(tài)規(guī)劃的挑戰(zhàn)
\n參考文獻
\n第4章蒙特卡洛學習方法
\n4.1蒙特卡洛方法背景
\n4.1.1蒙特卡洛方法的由來
\n4.1.2基于模型的算法與無模型算法比較
\n4.1.3蒙特卡洛模擬的思路
\n4.2蒙特卡洛預測
\n4.2.1初次訪問蒙特卡洛預測
\n4.2.2歷次訪問蒙特卡洛預測
\n4.2.3增量計算技巧
\n4.3蒙特卡洛控制
\n4.3.1初始探索問題
\n4.3.2在策方法: ε貪心算法
\n4.3.3脫策算法: 重要性采樣
\n4.4蒙特卡洛強化學習算法總結
\n參考文獻
\n第5章時序差分學習
\n5.1時序差分學習基本概念
\n5.2時序差分學習算法
\n5.3n步回報
\n5.4TD(λ)算法
\n參考文獻
\n第6章神經(jīng)網(wǎng)絡
\n6.1神經(jīng)網(wǎng)絡的發(fā)展歷史
\n6.2MP神經(jīng)元模型
\n6.3前饋神經(jīng)網(wǎng)絡
\n6.3.1感知機
\n6.3.2誤差反向傳播算法
\n6.3.3徑向基網(wǎng)絡
\n6.4其他常見的神經(jīng)網(wǎng)絡
\n6.4.1ART網(wǎng)絡
\n6.4.2Hopfield網(wǎng)絡
\n6.4.3Boltzmann機
\n參考文獻
\n第7章自適應動態(tài)規(guī)劃
\n7.1問題描述
\n7.2自適應動態(tài)規(guī)劃的原理
\n7.3自適應動態(tài)規(guī)劃的分類
\n7.3.1啟發(fā)式動態(tài)規(guī)劃
\n7.3.2二次啟發(fā)式規(guī)劃
\n7.3.3執(zhí)行依賴啟發(fā)式動態(tài)規(guī)劃
\n7.3.4執(zhí)行依賴二次啟發(fā)式規(guī)劃
\n7.4基于執(zhí)行依賴的自適應動態(tài)規(guī)劃方法
\n7.4.1問題描述
\n7.4.2基于執(zhí)行依賴的自適應動態(tài)規(guī)劃方法
\n參考文獻
\n第8章策略迭代學習方法
\n8.1啟發(fā)式學習原理
\n8.2離散時間策略迭代自適應動態(tài)規(guī)劃
\n8.2.1策略迭代算法的推導
\n8.2.2策略迭代算法的性質
\n8.2.3初始容許控制律的獲得
\n8.2.4仿真實驗
\n8.3連續(xù)時間策略迭代自適應動態(tài)規(guī)劃
\n8.3.1連續(xù)時間策略迭代算法
\n8.3.2連續(xù)時間策略迭代自適應動態(tài)規(guī)劃的性能分析
\n參考文獻
\n第9章值迭代學習方法
\n9.1值迭代學習原理
\n9.2離散時間值迭代自適應動態(tài)規(guī)劃
\n9.2.1離散時間非線性系統(tǒng)的Bellman方程解
\n9.2.2廣義值迭代自適應動態(tài)規(guī)劃
\n9.3連續(xù)時間值迭代自適應動態(tài)規(guī)劃
\n9.3.1問題描述
\n9.3.2主要結果
\n參考文獻
\n第10章Q學習方法
\n10.1無模型強化學習
\n10.2Q學習原理
\n10.3離散時間確定性Q學習
\n10.3.1問題描述
\n10.3.2離散時間確定性Q學習算法的性質
\n10.3.3離散時間確定性Q學習算法的神經(jīng)網(wǎng)絡實現(xiàn)
\n10.3.4仿真實驗
\n10.4Q學習進展
\n參考文獻
\n第11章脫策學習
\n11.1脫策學習的興盛
\n11.2脫策學習的基本思想
\n11.2.1問題描述
\n11.2.2相關研究工作
\n11.3脫策學習過程
\n11.3.1脫策強化學習
\n11.3.2基于神經(jīng)網(wǎng)絡的實現(xiàn)
\n11.4脫策學習收斂性分析
\n11.5基于脫策強化學習的線性H∞控制
\n11.6仿真實驗
\n參考文獻
\n第12章深度強化學習
\n12.1深度學習基本概念
\n12.1.1深度學習的起源
\n12.1.2深度學習與傳統(tǒng)機器學習
\n12.1.3深度學習的運用環(huán)境
\n12.2深度神經(jīng)網(wǎng)絡
\n12.2.1深度神經(jīng)網(wǎng)絡溯源
\n12.2.2梯度下降法
\n12.2.3反向傳播
\n12.2.4動量模型
\n12.2.5學習律
\n12.3卷積神經(jīng)網(wǎng)絡
\n12.3.1卷積神經(jīng)網(wǎng)絡介紹
\n12.3.2卷積層
\n12.3.3采樣層
\n12.3.4分類層
\n12.3.5經(jīng)典卷積神經(jīng)網(wǎng)絡結構
\n12.4循環(huán)神經(jīng)網(wǎng)絡
\n12.4.1循環(huán)神經(jīng)網(wǎng)絡介紹
\n12.4.2長短期記憶模型
\n12.5生成對抗網(wǎng)絡
\n12.6深度強化學習基本理論
\n12.6.1Q函數(shù)
\n12.6.2策略
\n12.6.3效用值
\n12.6.4模型
\n12.6.5規(guī)劃
\n12.7深度強化學習實際應用
\n12.7.1游戲
\n12.7.2機器人與控制
\n12.7.3自然語言處理
\n12.7.4計算機視覺
\n12.8未來待解決的問題
\n12.8.1采樣效率低下
\n12.8.2難以尋找合適的效用函數(shù)
\n12.8.3局部最優(yōu)陷阱
\n12.8.4過擬合問題
\n12.8.5復現(xiàn)難題
\n12.8.6適用場景與未來思考
\n參考文獻
\n第13章強化學習展望: 平行強化學習
\n13.1自適應動態(tài)規(guī)劃與深度強化學習
\n13.2平行控制理論的基本思想
\n13.3平行動態(tài)規(guī)劃方法
\n參考文獻
\n