基于函數(shù)逼近的強(qiáng)化學(xué)習(xí)與動態(tài)規(guī)劃

定　價(jià)：￥129.00

作　者：	[羅] 盧西恩·布索尼，[荷] 羅伯特·巴布斯卡，[荷] 巴特·德·舒特，[比] 達(dá)米安·厄恩斯特著，劉全，傅啟明，章宗長譯
出版社：	人民郵電出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購買這本書可以去

ISBN：	9787115508300	出版時(shí)間：	2019-04-01	包裝：	平裝
開本：	16開	頁數(shù)：	249	字?jǐn)?shù)：

內(nèi)容簡介

　　本書討論大規(guī)模連續(xù)空間的強(qiáng)化學(xué)習(xí)理論及方法，重點(diǎn)介紹使用函數(shù)逼近的強(qiáng)化學(xué)習(xí)和動態(tài)規(guī)劃方法。該研究已成為近年來計(jì)算機(jī)科學(xué)與技術(shù)領(lǐng)域中*活躍的研究分支之一。全書共分6 章。第1 章為概述；第2 章為動態(tài)規(guī)劃與強(qiáng)化學(xué)習(xí)介紹；第3 章為大規(guī)模連續(xù)空間中的動態(tài)規(guī)劃與強(qiáng)化學(xué)習(xí)；第4 章為基于模糊表示的近似值迭代；第5 章為用于在線學(xué)習(xí)和連續(xù)動作控制的近似策略迭代；第6 章為基于交叉熵基函數(shù)優(yōu)化的近似策略搜索。本書可以作為理工科高等院校計(jì)算機(jī)專業(yè)和自動控制專業(yè)研究生的教材，也可以作為相關(guān)領(lǐng)域科技工作者和工程技術(shù)人員的參考書。

作者簡介

　　Lucian Bu？oniu：荷蘭代爾夫特理工大學(xué)代爾夫特系統(tǒng)與控制中心博士后研究員。2009 年獲得代爾夫特理工大學(xué)博士學(xué)位，2003 年獲得羅馬尼亞克盧日·納波卡科技大學(xué)碩士學(xué)位。他目前的主要研究方向包括強(qiáng)化學(xué)習(xí)與近似動態(tài)規(guī)劃、面向控制問題的智能與學(xué)習(xí)技術(shù)以及多Agent學(xué)習(xí)等。Robert Babu？ka：荷蘭代爾夫特理工大學(xué)代爾夫特系統(tǒng)與控制中心教授。1997 年獲得代爾夫特理工大學(xué)控制專業(yè)博士學(xué)位，1990 年獲得布拉格捷克技術(shù)大學(xué)電機(jī)工程專業(yè)碩士學(xué)位。他目前的主要研究方向包括模糊系統(tǒng)建模與識別、神經(jīng)模糊系統(tǒng)的數(shù)據(jù)驅(qū)動結(jié)構(gòu)與自適應(yīng)、基于模型的模糊控制和學(xué)習(xí)控制，并將這些技術(shù)應(yīng)用于機(jī)器人、機(jī)電一體化和航空航天等領(lǐng)域。Bart De Schutter：荷蘭代爾夫特理工大學(xué)代爾夫特系統(tǒng)與控制中心海洋與運(yùn)輸技術(shù)系教授。1996 年獲得比利時(shí)魯汶大學(xué)應(yīng)用科學(xué)博士學(xué)位。他目前的主要研究方向包括多Agent 系統(tǒng)、混雜系統(tǒng)控制、離散事件系統(tǒng)和智能交通系統(tǒng)控制等。Damien Ernst：分別于1998 年和2003 年獲得比利時(shí)列日大學(xué)理學(xué)碩士及博士學(xué)位。他目前是比利時(shí)FRS-FNRS 的助理研究員，就職于列日大學(xué)的系統(tǒng)與建模研究院。Damien Ernst在2003—2006年間為FRS- FNRS 的博士后研究人員，并在此期間擔(dān)任劍橋管理機(jī)構(gòu)、麻省理工學(xué)院和美國國立衛(wèi)生研究院的訪問研究員，2006—2007學(xué)年在高等電力學(xué)院（法國）擔(dān)任教授。他目前的主要研究方向包括電力系統(tǒng)動力學(xué)、最優(yōu)控制、強(qiáng)化學(xué)習(xí)和動態(tài)治療方案設(shè)計(jì)等。

圖書目錄

目錄
第　1章概述　1
1．1　動態(tài)規(guī)劃與強(qiáng)化學(xué)習(xí)問題　2
1．2　動態(tài)規(guī)劃與強(qiáng)化學(xué)習(xí)中的逼近　5
1．3　關(guān)于本書　7
第　2章動態(tài)規(guī)劃與強(qiáng)化學(xué)習(xí)介紹　9
2．1　引言　9
2．2　馬爾可夫決策過程　12
2．2．1　確定性情況　12
2．2．2　隨機(jī)性情況　16
2．3　值迭代　20
2．3．1　基于模型的值迭代　20
2．3．2　模型無關(guān)的值迭代與探索的必要性　25
2．4　策略迭代　27
2．4．1　基于模型的策略迭代　28
2．4．2　模型無關(guān)的策略迭代　33
2．5　策略搜索　35
2．6　總結(jié)與討論　38
第3章　大規(guī)模連續(xù)空間中的動態(tài)規(guī)劃與強(qiáng)化學(xué)習(xí)　40
3．1　介紹　40
3．2　大規(guī)模連續(xù)空間中近似的必要性　43
3．3　近似框架　45
3．3．1　帶參近似　45
3．3．2　無參近似　48
3．3．3　帶參與無參逼近器的比較　49
3．3．4　附注　50
3．4　近似值迭代　51
3．4．1　基于模型的帶參近似值迭代算法　51
3．4．2　模型無關(guān)的帶參近似值迭代算法　54
3．4．3　無參近似值迭代算法　58
3．4．4　非擴(kuò)張近似的作用及收斂性　59
3．4．5　實(shí)例：用于直流電機(jī)的近似Q值迭代　62
3．5　近似策略迭代　67
3．5．1　用于近似策略評估的類值迭代算法　68
3．5．2　基于線性帶參近似的模型無關(guān)策略評估　70
3．5．3　基于無參近似的策略評估　80
3．5．4　帶回滾的基于模型的近似策略評估　80
3．5．5　策略改進(jìn)與近似策略迭代　81
3．5．6　理論保障　84
3．5．7　實(shí)例：用于直流電機(jī)的最小二乘策略迭代　86
3．6　自動獲取值函數(shù)逼近器　90
3．6．1　基函數(shù)最優(yōu)化方法　91
3．6．2　基函數(shù)構(gòu)造　93
3．6．3　附注　95
3．7　近似策略搜索　95
3．7．1　策略梯度與行動者-評論家算法　96
3．7．2　梯度無關(guān)的策略搜索　101
3．7．3　實(shí)例：用于直流電機(jī)問題的梯度無關(guān)策略搜索　103
3．8　近似值迭代、近似策略迭代及近似策略搜索算法的比較　106
3．9　總結(jié)與討論　108
第4章　基于模糊表示的近似值迭代　110
4．1　引言　110
4．2　模糊Q值迭代　112
4．2．1　模糊Q值迭代的近似和投影映射　112
4．2．2　同步和異步模糊Q值迭代　116
4．3　模糊Q值迭代的分析　119
4．3．1　收斂性　119
4．3．2　一致性　126
4．3．3　計(jì)算復(fù)雜度　131
4．4　優(yōu)化隸屬度函數(shù)　132
4．4．1　隸屬度函數(shù)優(yōu)化的一般方法　132
4．4．2　交叉熵優(yōu)化　133
4．4．3　基于交叉熵隸屬度函數(shù)優(yōu)化的模糊Q值迭代　135
4．5　實(shí)驗(yàn)研究　137
4．5．1　直流電機(jī)：收斂性和一致性研究　137
4．5．2　雙連桿機(jī)械臂：動作插值的效果以及與擬合Q值迭代的比較　142
4．5．3　倒立擺：實(shí)時(shí)控制　146
4．5．4　過山車：隸屬度函數(shù)優(yōu)化的效果　149
4．6　總結(jié)與討論　152
第5章　用于在線學(xué)習(xí)和連續(xù)動作控制的近似策略迭代　154
5．1　引言　154
5．2　最小二乘策略迭代的概述　155
5．3　在線最小二乘策略迭代　157
5．4　使用先驗(yàn)知識的在線LSPI　161
5．4．1　使用策略近似的在線LSPI　161
5．4．2　具有單調(diào)策略的在線LSPI　162
5．5　采用連續(xù)動作、多項(xiàng)式近似的LSPI　165
5．6　實(shí)驗(yàn)研究　167
5．6．1　用于倒立擺的在線LSPI　167
5．6．2　用于雙連桿機(jī)械臂的在線LSPI　178
5．6．3　使用直流電機(jī)先驗(yàn)知識的在線LSPI　181
5．6．4　在倒立擺中使用帶有連續(xù)動作逼近器的LSPI　183
5．7　總結(jié)與討論　187
第6章　基于交叉熵基函數(shù)優(yōu)化的近似策略搜索　189
6．1　介紹　189
6．2　交叉熵優(yōu)化方法　190
6．3　交叉熵策略搜索　192
6．3．1　一般方法　192
6．3．2　基于徑向基函數(shù)的交叉熵策略搜索　197
6．4　實(shí)驗(yàn)研究　199
6．4．1　離散時(shí)間二重積分　199
6．4．2　自行車平衡　206
6．4．3　HIV傳染病控制的計(jì)劃性間斷治療　212
6．5　總結(jié)與討論　215
附錄A　極端隨機(jī)樹　217
附錄B　交叉熵方法　221
縮略語　227
參考文獻(xiàn)　232