統(tǒng)計策略搜索強化學(xué)習(xí)方法及應(yīng)用

定　價：￥79.00

作　者：	趙婷婷著
出版社：	電子工業(yè)出版社
叢編項：
標　簽：	暫缺

購買這本書可以去

ISBN：	9787121419591	出版時間：	2021-09-01	包裝：	平裝
開本：	16開	頁數(shù)：	180	字數(shù)：

內(nèi)容簡介

　　智能體AlphaGo戰(zhàn)勝人類圍棋專家刷新了人類對人工智能的認識，也使得其核心技術(shù)強化學(xué)習(xí)受到學(xué)術(shù)界的廣泛關(guān)注。本書正是在如此背景下，圍繞作者多年從事強化學(xué)習(xí)理論及應(yīng)用的研究內(nèi)容及國內(nèi)外關(guān)于強化學(xué)習(xí)的最近動態(tài)等方面展開介紹，是為數(shù)不多的強化學(xué)習(xí)領(lǐng)域的專業(yè)著作。該著作側(cè)重于基于直接策略搜索的強化學(xué)習(xí)方法，結(jié)合了統(tǒng)計學(xué)習(xí)的諸多方法對相關(guān)技術(shù)及方法進行分析、改進及應(yīng)用。本書以一個全新的現(xiàn)代角度描述策略搜索強化學(xué)習(xí)算法。從不同的強化學(xué)習(xí)場景出發(fā)，講述了強化學(xué)習(xí)在實際應(yīng)用中所面臨的諸多難題。針對不同場景，給定具體的策略搜索算法，分析算法中估計量和學(xué)習(xí)參數(shù)的統(tǒng)計特性，并對算法進行應(yīng)用實例展示及定量比較。特別地，本書結(jié)合強化學(xué)習(xí)前沿技術(shù)將策略搜索算法應(yīng)用到機器人控制及數(shù)字藝術(shù)渲染領(lǐng)域，給人以耳目一新的感覺。最后根據(jù)作者長期研究經(jīng)驗，對強化學(xué)習(xí)的發(fā)展趨勢進行了簡要介紹和總結(jié)。本書取材經(jīng)典、全面，概念清楚，推導(dǎo)嚴密，以期形成一個集基礎(chǔ)理論、算法和應(yīng)用為一體的完備知識體系。

作者簡介

　　趙婷婷，天津科技大學(xué)人工智能學(xué)院副教授，主要研究方向為人工智能、機器學(xué)習(xí)。中國計算機協(xié)會（CCF）會員、YOCSEF 會員、中國人工智能學(xué)會會員、人工智能學(xué)會模式識別專委會委員，2017年獲得天津市131”創(chuàng)新型人才培養(yǎng)工程第二層次人選稱號。

圖書目錄

第1章強化學(xué)習(xí)概述??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????1
1．1 機器學(xué)習(xí)中的強化學(xué)習(xí)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????1
1．2 智能控制中的強化學(xué)習(xí)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????4
1．3 強化學(xué)習(xí)分支????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????8
1．4 本書貢獻??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????11
1．5 本書結(jié)構(gòu)??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????12
參考文獻????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????14
第2章相關(guān)研究及背景知識??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????19
2．1 馬爾可夫決策過程????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????19
2．2 基于值函數(shù)的策略學(xué)習(xí)算法??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????21
2．2．1 值函數(shù)??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????21
2．2．2 策略迭代和值迭代????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????23
2．2．3 Q-learning ????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????25
2．2．4 基于最小二乘法的策略迭代算法??????????????????????????????????????????????????????????????????????????????????????????27
2．2．5 基于值函數(shù)的深度強化學(xué)習(xí)方法??????????????????????????????????????????????????????????????????????????????????????????29
2．3 策略搜索算法????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????30
2．3．1 策略搜索算法建模????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????31
2．3．2 傳統(tǒng)策略梯度算法（REINFORCE算法）????????????????????????????????????????????????????????????32
2．3．3 自然策略梯度方法（Natural Policy Gradient）????????????????????????????????????????????????33
2．3．4 期望最大化的策略搜索方法??????????????????????????????????????????????????????????????????????????????????????????????????????????35
2．3．5 基于策略的深度強化學(xué)習(xí)方法??????????????????????????????????????????????????????????????????????????????????????????????????37
2．4 本章小結(jié)??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????38
參考文獻????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????39
第3章策略梯度估計的分析與改進??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????42
3．1 研究背景??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????42
3．2 基于參數(shù)探索的策略梯度算法（PGPE算法）??????????????????????????????????????????????????????????????????????44
3．3 梯度估計方差分析????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????46
3．4 基于最優(yōu)基線的算法改進及分析??????????????????????????????????????????????????????????????????????????????????????????????????????????????????48
3．4．1 最優(yōu)基線的基本思想????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????48
3．4．2 PGPE算法的最優(yōu)基線????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????49
3．5 實驗??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????51
3．5．1 示例??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????51
3．5．2 倒立擺平衡問題????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????57
3．6 總結(jié)與討論????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????58
參考文獻????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????60
第4章基于重要性采樣的參數(shù)探索策略梯度算法????????????????????????????????????????????????????????????????????????????????????63
4．1 研究背景??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????63
4．2 異策略場景下的PGPE算法??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????64
4．2．1 重要性加權(quán)PGPE算法??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????65
4．2．2 IW-PGPE算法通過基線減法減少方差????????????????????????????????????????????????????????????????????????66
4．3 實驗結(jié)果??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????68
4．3．1 示例??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????69
4．3．2 山地車任務(wù)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????78
4．3．3 機器人仿真控制任務(wù)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????81
4．4 總結(jié)和討論????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????88
參考文獻????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????89
第5章方差正則化策略梯度算法??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????91
5．1 研究背景??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????91
5．2 正則化策略梯度算法????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????92
5．2．1 目標函數(shù)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????92
5．2．2 梯度計算方法????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????94
5．3 實驗結(jié)果??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????95
5．3．1 數(shù)值示例????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????95
5．3．2 山地車任務(wù)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????101
5．4 總結(jié)和討論????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????102
參考文獻????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????103
第6章基于參數(shù)探索的策略梯度算法的采樣技術(shù)????????????????????????????????????????????????????????????????????????????????105
6．1 研究背景??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????105
6．2 基于參數(shù)探索的策略梯度算法中的采樣技術(shù)????????????????????????????????????????????????????????????????????????107
6．2．1 基線采樣????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????108
6．2．2 最優(yōu)基線采樣????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????109
6．2．3 對稱采樣????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????109
6．2．4 超對稱采樣????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????111
6．2．5 多模態(tài)超對稱采樣????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????116
6．2．6 SupSymPGPE 的獎勵歸一化????????????????????????????????????????????????????????????????????????????????????????????????????117
6．3 數(shù)值示例實驗????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????119
6．3．1 平方函數(shù)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????120
6．3．2 Rastrigin函數(shù)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????120
6．4 本章總結(jié)??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????124
參考文獻????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????125
第7章基于樣本有效重用的人形機器人的運動技能學(xué)習(xí)??????????????????????????????????????????????????????????127
7．1 研究背景：真實環(huán)境下的運動技能學(xué)習(xí)??????????????????????????????????????????????????????????????????????????????????????127
7．2 運動技能學(xué)習(xí)框架????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????128
7．2．1 機器人的運動路徑和回報??????????????????????????????????????????????????????????????????????????????????????????????????????????????128
7．2．2 策略模型????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????129
7．2．3 基于PGPE算法的策略學(xué)習(xí)方法??????????????????????????????????????????????????????????????????????????????????????129
7．3 有效重用歷史經(jīng)驗????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????130
7．3．1 基于重要性加權(quán)的參數(shù)探索策略梯度算法
（IW-PGPE算法）??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????130
7．3．2 基于IW-PGPE算法的運動技能學(xué)習(xí)過程??????????????????????????????????????????????????????????131
7．3．3 遞歸型IW-PGPE算法????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????132
7．4 虛擬環(huán)境中的車桿擺動任務(wù)??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????133
7．5 籃球射擊任務(wù)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????137
7．6 討論與結(jié)論????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????140
參考文獻????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????142
第8章基于逆強化學(xué)習(xí)的藝術(shù)風(fēng)格學(xué)習(xí)及水墨畫渲染??????????????????????????????????????????????????????????????????145
8．1 研究背景??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????145
8．1．1 計算機圖形學(xué)背景????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????146
8．1．2 人工智能背景????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????147
8．1．3 面向藝術(shù)風(fēng)格化的渲染系統(tǒng)??????????????????????????????????????????????????????????????????????????????????????????????????????148
8．2 基于強化學(xué)習(xí)的筆刷智能體建模??????????????????????????????????????????????????????????????????????????????????????????????????????????????148
8．2．1 動作的設(shè)計????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????149
8．2．2 狀態(tài)的設(shè)計????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????150
8．3 離線藝術(shù)風(fēng)格學(xué)習(xí)階段????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????151
8．3．1 數(shù)據(jù)采集????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????152
8．3．2 基于逆強化學(xué)習(xí)的獎勵函數(shù)學(xué)習(xí)??????????????????????????????????????????????????????????????????????????????????????153
8．3．3 基于R-PGPE算法的渲染策略學(xué)習(xí)??????????????????????????????????????????????????????????????????????????????154
8．4 A4系統(tǒng)用戶界面????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????155
8．5 實驗與結(jié)果????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????157
8．5．1 渲染策略學(xué)習(xí)結(jié)果????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????157
8．5．2 基于IRL進行筆畫繪制的渲染結(jié)果??????????????????????????????????????????????????????????????????????????????160
8．6 本章小結(jié)??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????162
參考文獻????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????163