注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)人工智能統(tǒng)計策略搜索強化學(xué)習(xí)方法及應(yīng)用

統(tǒng)計策略搜索強化學(xué)習(xí)方法及應(yīng)用

統(tǒng)計策略搜索強化學(xué)習(xí)方法及應(yīng)用

定 價:¥79.00

作 者: 趙婷婷 著
出版社: 電子工業(yè)出版社
叢編項:
標(biāo) 簽: 暫缺

ISBN: 9787121419591 出版時間: 2021-09-01 包裝: 平裝
開本: 16開 頁數(shù): 180 字?jǐn)?shù):  

內(nèi)容簡介

  智能體AlphaGo戰(zhàn)勝人類圍棋專家刷新了人類對人工智能的認(rèn)識,也使得其核心技術(shù)強化學(xué)習(xí)受到學(xué)術(shù)界的廣泛關(guān)注。本書正是在如此背景下,圍繞作者多年從事強化學(xué)習(xí)理論及應(yīng)用的研究內(nèi)容及國內(nèi)外關(guān)于強化學(xué)習(xí)的最近動態(tài)等方面展開介紹,是為數(shù)不多的強化學(xué)習(xí)領(lǐng)域的專業(yè)著作。該著作側(cè)重于基于直接策略搜索的強化學(xué)習(xí)方法,結(jié)合了統(tǒng)計學(xué)習(xí)的諸多方法對相關(guān)技術(shù)及方法進行分析、改進及應(yīng)用。本書以一個全新的現(xiàn)代角度描述策略搜索強化學(xué)習(xí)算法。從不同的強化學(xué)習(xí)場景出發(fā),講述了強化學(xué)習(xí)在實際應(yīng)用中所面臨的諸多難題。針對不同場景,給定具體的策略搜索算法,分析算法中估計量和學(xué)習(xí)參數(shù)的統(tǒng)計特性,并對算法進行應(yīng)用實例展示及定量比較。特別地,本書結(jié)合強化學(xué)習(xí)前沿技術(shù)將策略搜索算法應(yīng)用到機器人控制及數(shù)字藝術(shù)渲染領(lǐng)域,給人以耳目一新的感覺。最后根據(jù)作者長期研究經(jīng)驗,對強化學(xué)習(xí)的發(fā)展趨勢進行了簡要介紹和總結(jié)。本書取材經(jīng)典、全面,概念清楚,推導(dǎo)嚴(yán)密,以期形成一個集基礎(chǔ)理論、算法和應(yīng)用為一體的完備知識體系。

作者簡介

  趙婷婷,天津科技大學(xué)人工智能學(xué)院副教授,主要研究方向為人工智能、機器學(xué)習(xí)。中國計算機協(xié)會(CCF) 會員、YOCSEF 會員、中國人工智能學(xué)會會員、人工智能學(xué)會模式識別專委會委員,2017年獲得天津市131”創(chuàng)新型人才培養(yǎng)工程第二層次人選稱號。

圖書目錄

第1章 強化學(xué)習(xí)概述??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????1
1.1 機器學(xué)習(xí)中的強化學(xué)習(xí)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????1
1.2 智能控制中的強化學(xué)習(xí)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????4
1.3 強化學(xué)習(xí)分支????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????8
1.4 本書貢獻(xiàn)??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????11
1.5 本書結(jié)構(gòu)??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????12
參考文獻(xiàn)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????14
第2章 相關(guān)研究及背景知識??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????19
2.1 馬爾可夫決策過程????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????19
2.2 基于值函數(shù)的策略學(xué)習(xí)算法??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????21
2.2.1 值函數(shù)??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????21
2.2.2 策略迭代和值迭代????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????23
2.2.3 Q-learning ????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????25
2.2.4 基于最小二乘法的策略迭代算法??????????????????????????????????????????????????????????????????????????????????????????27
2.2.5 基于值函數(shù)的深度強化學(xué)習(xí)方法??????????????????????????????????????????????????????????????????????????????????????????29
2.3 策略搜索算法????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????30
2.3.1 策略搜索算法建模????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????31
2.3.2 傳統(tǒng)策略梯度算法(REINFORCE算法)????????????????????????????????????????????????????????????32
2.3.3 自然策略梯度方法(Natural Policy Gradient)????????????????????????????????????????????????33
2.3.4 期望最大化的策略搜索方法??????????????????????????????????????????????????????????????????????????????????????????????????????????35
2.3.5 基于策略的深度強化學(xué)習(xí)方法??????????????????????????????????????????????????????????????????????????????????????????????????37
2.4 本章小結(jié)??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????38
參考文獻(xiàn)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????39
第3章 策略梯度估計的分析與改進??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????42
3.1 研究背景??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????42
3.2 基于參數(shù)探索的策略梯度算法(PGPE算法)??????????????????????????????????????????????????????????????????????44
3.3 梯度估計方差分析????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????46
3.4 基于最優(yōu)基線的算法改進及分析??????????????????????????????????????????????????????????????????????????????????????????????????????????????????48
3.4.1 最優(yōu)基線的基本思想????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????48
3.4.2 PGPE算法的最優(yōu)基線????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????49
3.5 實驗??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????51
3.5.1 示例??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????51
3.5.2 倒立擺平衡問題????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????57
3.6 總結(jié)與討論????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????58
參考文獻(xiàn)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????60
第4章 基于重要性采樣的參數(shù)探索策略梯度算法????????????????????????????????????????????????????????????????????????????????????63
4.1 研究背景??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????63
4.2 異策略場景下的PGPE算法??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????64
4.2.1 重要性加權(quán)PGPE算法??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????65
4.2.2 IW-PGPE算法通過基線減法減少方差????????????????????????????????????????????????????????????????????????66
4.3 實驗結(jié)果??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????68
4.3.1 示例??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????69
4.3.2 山地車任務(wù)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????78
4.3.3 機器人仿真控制任務(wù)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????81
4.4 總結(jié)和討論????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????88
參考文獻(xiàn)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????89
第5章 方差正則化策略梯度算法??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????91
5.1 研究背景??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????91
5.2 正則化策略梯度算法????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????92
5.2.1 目標(biāo)函數(shù)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????92
5.2.2 梯度計算方法????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????94
5.3 實驗結(jié)果??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????95
5.3.1 數(shù)值示例????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????95
5.3.2 山地車任務(wù)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????101
5.4 總結(jié)和討論????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????102
參考文獻(xiàn)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????103
第6章 基于參數(shù)探索的策略梯度算法的采樣技術(shù)????????????????????????????????????????????????????????????????????????????????105
6.1 研究背景??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????105
6.2 基于參數(shù)探索的策略梯度算法中的采樣技術(shù)????????????????????????????????????????????????????????????????????????107
6.2.1 基線采樣????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????108
6.2.2 最優(yōu)基線采樣????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????109
6.2.3 對稱采樣????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????109
6.2.4 超對稱采樣????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????111
6.2.5 多模態(tài)超對稱采樣????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????116
6.2.6 SupSymPGPE 的獎勵歸一化????????????????????????????????????????????????????????????????????????????????????????????????????117
6.3 數(shù)值示例實驗????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????119
6.3.1 平方函數(shù)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????120
6.3.2 Rastrigin函數(shù)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????120
6.4 本章總結(jié)??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????124
參考文獻(xiàn)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????125
第7章 基于樣本有效重用的人形機器人的運動技能學(xué)習(xí)??????????????????????????????????????????????????????????127
7.1 研究背景:真實環(huán)境下的運動技能學(xué)習(xí)??????????????????????????????????????????????????????????????????????????????????????127
7.2 運動技能學(xué)習(xí)框架????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????128
7.2.1 機器人的運動路徑和回報??????????????????????????????????????????????????????????????????????????????????????????????????????????????128
7.2.2 策略模型????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????129
7.2.3 基于PGPE算法的策略學(xué)習(xí)方法??????????????????????????????????????????????????????????????????????????????????????129
7.3 有效重用歷史經(jīng)驗????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????130
7.3.1 基于重要性加權(quán)的參數(shù)探索策略梯度算法
(IW-PGPE算法)??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????130
7.3.2 基于IW-PGPE算法的運動技能學(xué)習(xí)過程??????????????????????????????????????????????????????????131
7.3.3 遞歸型IW-PGPE算法????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????132
7.4 虛擬環(huán)境中的車桿擺動任務(wù)??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????133
7.5 籃球射擊任務(wù)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????137
7.6 討論與結(jié)論????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????140
參考文獻(xiàn)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????142
第8章 基于逆強化學(xué)習(xí)的藝術(shù)風(fēng)格學(xué)習(xí)及水墨畫渲染??????????????????????????????????????????????????????????????????145
8.1 研究背景??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????145
8.1.1 計算機圖形學(xué)背景????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????146
8.1.2 人工智能背景????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????147
8.1.3 面向藝術(shù)風(fēng)格化的渲染系統(tǒng)??????????????????????????????????????????????????????????????????????????????????????????????????????148
8.2 基于強化學(xué)習(xí)的筆刷智能體建模??????????????????????????????????????????????????????????????????????????????????????????????????????????????148
8.2.1 動作的設(shè)計????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????149
8.2.2 狀態(tài)的設(shè)計????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????150
8.3 離線藝術(shù)風(fēng)格學(xué)習(xí)階段????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????151
8.3.1 數(shù)據(jù)采集????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????152
8.3.2 基于逆強化學(xué)習(xí)的獎勵函數(shù)學(xué)習(xí)??????????????????????????????????????????????????????????????????????????????????????153
8.3.3 基于R-PGPE算法的渲染策略學(xué)習(xí)??????????????????????????????????????????????????????????????????????????????154
8.4 A4系統(tǒng)用戶界面????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????155
8.5 實驗與結(jié)果????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????157
8.5.1 渲染策略學(xué)習(xí)結(jié)果????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????157
8.5.2 基于IRL進行筆畫繪制的渲染結(jié)果??????????????????????????????????????????????????????????????????????????????160
8.6 本章小結(jié)??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????162
參考文獻(xiàn)????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????163

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號