注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機(jī)/網(wǎng)絡(luò)軟件工程及軟件方法學(xué)強(qiáng)化學(xué)習(xí)與最優(yōu)控制

強(qiáng)化學(xué)習(xí)與最優(yōu)控制

強(qiáng)化學(xué)習(xí)與最優(yōu)控制

定 價:¥139.00

作 者: [美]德梅萃·P. 博塞克斯(Dimitri P. Bertsekas) 著,李宇超 譯
出版社: 清華大學(xué)出版社
叢編項:
標(biāo) 簽: 暫缺

ISBN: 9787302656449 出版時間: 2024-04-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  本書的目的是考慮大型且具有挑戰(zhàn)性的多階段決策問題,這些問題原則上可以通過動態(tài)規(guī)劃和最優(yōu)控制來解決,但它們的精確解決方案在計算上是難以處理的。本書討論依賴于近似的解決方法,以產(chǎn)生具有足夠性能的次優(yōu)策略。這些方法統(tǒng)稱為增強(qiáng)學(xué)習(xí),也可以叫做近似動態(tài)規(guī)劃和神經(jīng)動態(tài)規(guī)劃等。 本書的主題產(chǎn)生于最優(yōu)控制和人工智能思想的相互作用。本書的目的之一是探索這兩個領(lǐng)域之間的共同邊界,并架設(shè)一座具有任一領(lǐng)域背景的專業(yè)人士都可以訪問的橋梁。

作者簡介

  李宇超,瑞典皇家理工學(xué)院決策與控制專業(yè)博士在讀。博士期間研究課題為強(qiáng)化學(xué)習(xí),最優(yōu)控制,以及相關(guān)理論在智能交通領(lǐng)域的應(yīng)用。他于2015年在哈爾濱工業(yè)大學(xué)機(jī)械制造及其自動化專業(yè)獲得本科學(xué)位,并在1年后從現(xiàn)就讀學(xué)院的機(jī)電一體化專業(yè)獲得碩士學(xué)位。

圖書目錄

第 1 章  精確動態(tài)規(guī)劃   1 
1.1  確定性動態(tài)規(guī)劃  1 
1.1.1  確定性問題.  1 
1.1.2  動態(tài)規(guī)劃算法 5 
1.1.3  值空間的近似 9 
1.2  隨機(jī)動態(tài)規(guī)劃  10 
1.3  例子、變形和簡化.  13 
1.3.1  確定性最短路徑問題 14 
1.3.2  確定性離散優(yōu)化問題 15 
1.3.3  含終止?fàn)顟B(tài)的問題  18 
1.3.4  預(yù)報 20 
1.3.5  含不可控狀態(tài)組分的問題 21 
1.3.6  不完整的狀態(tài)信息和置信狀態(tài) 25 
1.3.7  線性二次型最優(yōu)控制 28 
1.3.8  含未知參數(shù)的系統(tǒng)——自適應(yīng)控制 30 
1.4  強(qiáng)化學(xué)習(xí)與最優(yōu)控制——一些術(shù)語  32 
1.5  注釋和資源 34 
第 2 章  值空間的近似  36 
2.1  強(qiáng)化學(xué)習(xí)中的近似方法.  36 
2.1.1  值空間近似的一般問題  39 
2.1.2  離線與在線方法 40 
2.1.3  針對前瞻最小化的基于模型的簡化 40 
2.1.4  無模型的離線 Q 因子近似 41 
2.1.5  基于值空間近似的策略空間近似  43 
2.1.6  值空間的近似何時有效  44 
2.2  多步前瞻. 45 
2.2.1  多步前瞻與滾動時域 46 
2.2.2  多步前瞻與確定性問題  47 
2.3  問題近似. 48
2.3.1  強(qiáng)制解耦  49 
2.3.2  隨機(jī)問題中的近似——確定性等價控制 . 54 
2.4  策略前展與策略改進(jìn)原則.  58 
2.4.1  針對確定性離散優(yōu)化問題的在線策略前展  59 
2.4.2  隨機(jī)策略前展與蒙特卡洛樹搜索  68 
2.4.3  基于專家的策略前展 75 
2.5  針對確定性無窮空間問題的在線策略前展——優(yōu)化類啟發(fā)式方法 76 
2.5.1  模型預(yù)測控制  77 
2.5.2  目標(biāo)管道與約束可控性條件  82 
2.5.3  模型預(yù)測控制的變形 85 
2.6  注釋與資源 86 
第 3 章  參數(shù)化近似 90 
3.1  近似架構(gòu). 90 
3.1.1  基于特征的線性與非線性參數(shù)架構(gòu) 90 
3.1.2  訓(xùn)練線性與非線性架構(gòu)  95 
3.1.3  增量梯度與牛頓法  96 
3.2  神經(jīng)網(wǎng)絡(luò).  107 
3.2.1  訓(xùn)練神經(jīng)網(wǎng)絡(luò).  109 
3.2.2  多層與深度神經(jīng)網(wǎng)絡(luò) 112 
3.3  連續(xù)動態(tài)規(guī)劃近似 115 
3.4  Q 因子參數(shù)化近似 116 
3.5  基于分類的策略空間參數(shù)化近似 119 
3.6  注釋與資源 122 
第 4 章  無窮階段動態(tài)規(guī)劃 124 
4.1  無窮階段問題概論 124 
4.2  隨機(jī)最短路徑問題 126 
4.3  折扣問題.  133 
4.4  半馬爾可夫折扣問題  137 
4.5  異步分布式值迭代 141 
4.6  策略迭代.  144 
4.6.1  精確策略迭代.  144 
4.6.2  樂觀與多步前瞻策略迭代 148 
4.6.3  針對 Q 因子的策略迭代 149 
4.7  注釋和資源 151 
4.8  附錄:數(shù)學(xué)分析. 152 
4.8.1  隨機(jī)最短路徑問題的相關(guān)證明 152 
4.8.2  折扣問題的相關(guān)證明 157 
4.8.3  精確與樂觀策略迭代的收斂性 157
第 5 章  無窮階段強(qiáng)化學(xué)習(xí) 160 
5.1  值空間近似——性能界 160 
5.1.1  有限前瞻. 162 
5.1.2  策略前展. 164 
5.1.3  近似策略迭代.  167 
5.2  擬合值迭代 169 
5.3  采用參數(shù)化近似的基于仿真的策略迭代 173 
5.3.1  自主學(xué)習(xí)與執(zhí)行–批評方法  173 
5.3.2  一種基于模型的變體 174 
5.3.3  一種無模型的變體.  176 
5.3.4  實施參數(shù)化策略迭代的挑戰(zhàn).  177 
5.3.5  近似策略迭代的收斂問題——振蕩 180 
5.4  Q 學(xué)習(xí) 183 
5.5  附加方法——時序差分 185 
5.6  精確與近似線性規(guī)劃  194 
5.7  策略空間近似.  196 
5.7.1  通過費(fèi)用優(yōu)化執(zhí)行訓(xùn)練——策略梯度、交叉熵以及隨機(jī)搜索方法  199 
5.7.2  基于專家的監(jiān)督學(xué)習(xí) 207 
5.7.3  近似策略迭代、策略前展與策略空間近似.  208 
5.8  注釋和資源 212 
5.9  附錄:數(shù)學(xué)分析. 216 
5.9.1  多步前瞻的性能界.  216 
5.9.2  策略前展的性能界.  218 
5.9.3  近似策略迭代的性能界.  220 
第 6 章  聚集  223 
6.1  包含代表狀態(tài)的聚集  223 
6.1.1  連續(xù)控制空間離散化 227 
6.1.2  連續(xù)狀態(tài)空間——部分可觀察馬爾可夫決策問題的離散化 228 
6.2  包含代表特征的聚集  230 
6.2.1  硬聚集與誤差界 232 
6.2.2  采用特征的聚集 234 
6.3  求解聚集問題的方法  237 
6.3.1  基于仿真的策略迭代 238 
6.3.2  基于仿真的值迭代.  240 
6.4  包含神經(jīng)網(wǎng)絡(luò)的基于特征的聚集 241 
6.5  偏心聚集.  242 
6.6  注釋和資源 244 
6.7  附錄:數(shù)學(xué)分析. 247 
參考文獻(xiàn) 250

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號