動態(tài)規(guī)劃與最優(yōu)控制：近似動態(tài)規(guī)劃（第Ⅱ卷）

定　價：￥129.00

作　者：	[美] 德梅萃·P.博塞克斯著，賈慶山譯
出版社：	清華大學出版社
叢編項：	信息技術和電氣工程學科國際知名教材中譯本系列
標　簽：	暫缺

購買這本書可以去

京東 (￥116.10)

ISBN：	9787302561460	出版時間：	2021-02-01	包裝：	平裝
開本：	16開	頁數(shù)：	491	字數(shù)：

內(nèi)容簡介

　　《動態(tài)規(guī)劃與最優(yōu)控制：近似動態(tài)規(guī)劃（第Ⅱ卷）》系統(tǒng)性介紹動態(tài)規(guī)劃，特別是近似動態(tài)規(guī)劃，包括折扣問題的理論與計算方法、隨機最短路問題、無折扣問題、平均費用問題、折扣與無折扣問題的近似動態(tài)規(guī)劃等。

作者簡介

　　德梅萃·P.博塞克斯 Dimitri Bertsekas曾在希臘國立雅典技術大學學習機械與電機工程，之后從麻省理工學院獲得系統(tǒng)科學博士學位。曾先后在斯坦福大學工程與經(jīng)濟系統(tǒng)系和伊利諾伊大學香檳分校的電機工程系任教。1979年以來，他一直在麻省理工學院電機工程與計算機科學系任教，現(xiàn)任麥卡菲工程教授。其研究涉及多個領域，包括優(yōu)化、控制、大規(guī)模計算和數(shù)據(jù)通信網(wǎng)絡，并與其教學和著書工作聯(lián)系緊密。他已撰寫14本著作以及眾多論文，其中數(shù)本著作在麻省理工學院被用作教材。他與動態(tài)規(guī)劃之緣始于博士論文的研究，并通過學術論文、多本教材和學術專著一直延續(xù)至今。Bertsekas 教授因其著作《神經(jīng)元動態(tài)規(guī)劃》（與John Tsitsiklis合著）榮獲1997年INFORMS 授予的運籌學與計算機科學交叉領域的杰出研究成果獎、2000年希臘運籌學國家獎、2001年美國控制會議John R.Ragazzini獎以及2009年INFORMS Expository寫作獎。2001年，他因為“基礎性研究、實踐并教育優(yōu)化/控制理論，特別是在數(shù)據(jù)通信網(wǎng)絡中的應用”當選美國工程院院士。Bertsekas博士近些年出版的書包括《概率導論》第二版（2008年與John Tsitsiklis合著）和《凸優(yōu)化理論》（2009），均由雅典娜科學出版社出版。

圖書目錄

第1章折扣問題——理論
1.1 總費用最小化——介紹
1.1.1 有限階段動態(tài)規(guī)劃算法
1.1.2 符號簡寫與單調性
1.1.3 無窮階段結果的預覽
1.1.4 隨機的和依賴歷史的策略
1.2 折扣問題——各階段費用有界
1.3 調度與多柄老虎機問題
1.3.1 項目的指標
1.3.2 項目逐個退出策略
1.4 折扣連續(xù)時間問題
1.5 壓縮映射的作用
1.5.1 極大模壓縮
1.5.2 折扣問題——單階段費用無界
1.6 折扣動態(tài)規(guī)劃的一般形式
1.6.1 壓縮與單調性的基本結論
1.6.2 折扣動態(tài)博弈
1.7 注釋、參考文獻及習題
習題
第2章折扣問題——計算方法
2.1 馬爾可夫決策問題
2.2 值迭代
2.2.1 值迭代的單調誤差界
2.2.2 值迭代的變形
2.2.3 Q-學習
2.3 策略迭代
2.3.1 針對費用的策略迭代
2.3.2 Q-因子的策略迭代
2.3.3 樂觀策略迭代
2.3.4 有限前瞻策略和滾動
2.4 線性規(guī)劃方法
2.5 一般折扣問題的方法
2.5.1 采用近似的有限前瞻策略
2.5.2 推廣的值迭代
2.5.3 近似值迭代
2.5.4 推廣的策略迭代
2.5.5 推廣的樂觀策略迭代
2.5.6 近似策略迭代
2.5.7 數(shù)學規(guī)劃
2.6 異步方法
2.6.1 異步值迭代
2.6.2 異步策略迭代
2.6.3 具有均一不動點的策略迭代
2.7 注釋、資源和習題
習題
第3章隨機最短路問題
3.1 問題建模
3.2 主要結論
3.3 基本壓縮性質
3.4 值迭代
3.4.1 有限步終止的條件
3.4.2 異步值迭代
3.5 策略迭代
3.5.1 樂觀策略迭代
3.5.2 近似策略迭代
3.5.3 具有不合適策略的策略迭代
3.5.4 具有均一不動點的異步策略迭代
3.6 可數(shù)狀態(tài)問題
3.7 注釋、資源和習題
習題
第4章無折扣問題
4.1 每階段的費用無界
4.1.1 主要結論
4.1.2 值迭代
4.1.3 其他計算方法
4.2 線性系統(tǒng)和二次費用
4.3 庫存控制
4.4 最優(yōu)停止
4.5 最優(yōu)博弈策略
4.6 連續(xù)時間問題——排隊的控制
4.7 非平穩(wěn)和周期性問題
4.8 注釋、資源和習題
習題
第5章每階段平均費用問題
5.1 有限空間平均費用模型
5.1.1 與折扣費用問題的關系
5.1.2 Blackwell 最優(yōu)策略
5.1.3 最優(yōu)性條件
5.2 所有初始狀態(tài)的平均費用相等的條件
5.3 值迭代
5.3.1 單鏈值迭代
5.3.2 多鏈值迭代
5.4 策略迭代
5.4.1 單鏈策略迭代
5.4.2 多鏈策略迭代
5.5 線性規(guī)劃
5.6 無窮空間平均費用模型
5.6.1 最優(yōu)性的充分條件
5.6.2 有限狀態(tài)空間和無限控制空間
5.6.3 可數(shù)狀態(tài)——消失的折扣方法
5.6.4 可數(shù)狀態(tài)——壓縮方法
5.6.5 具有二次費用的線性系統(tǒng)
5.7 注釋、資源和習題
習題
第6章近似動態(tài)規(guī)劃：折扣模型
6.1 基于仿真的費用近似的一般性問題
6.1.1 近似結構
6.1.2 基于仿真的近似策略迭代
6.1.3 直接和間接近似
6.1.4 蒙特卡羅仿真
6.1.5 簡化
6.2 直接策略評價——梯度法
6.3 策略評價的投影方程方法
6.3.1 投影貝爾曼方程
6.3.2 投影方程的矩陣形式
6.3.3 基于仿真的估計方法
6.3.4 LSTD、LSPE 和TD(0) 方法
6.3.5 樂觀版本
6.3.6 多步基于仿真的方法
6.3.7 提要
6.4 策略迭代問題
6.4.1 基于幾何采樣的搜索增強
6.4.2 基于離線策略方法的搜索增強
6.4.3 策略振蕩——震顫
6.5 聚集方法
6.5.1 基于聚集問題的費用近似
6.5.2 通過增廣問題的費用近似
6.5.3 多步聚集
6.5.4 異步分布聚集
6.6 Q-學習
6.6.1 Q-學習：隨機值迭代算法
6.6.2 Q-學習和策略迭代
6.6.3 Q-因子近似和投影方程
6.6.4 最優(yōu)停止問題的Q-學習
6.6.5 Q-學習和聚集
6.6.6 有限階段Q-學習
6.7 注釋、資源和習題
習題
第7章近似動態(tài)規(guī)劃：無折扣模型及推廣
7.1 隨機最短路問題
7.2 平均費用問題
7.2.1 近似策略評價
7.2.2 近似策略迭代
7.2.3 平均費用問題的Q-學習
7.3 一般問題和蒙特卡羅線性代數(shù)
7.3.1 投影方程
7.3.2 矩陣逆合迭代方法
7.3.3 多步方法
7.3.4 最優(yōu)停止的Q-學習的推廣
7.3.5 方程誤差方法
7.3.6 傾斜投影
7.3.7 推廣聚集
7.3.8 奇異線性系統(tǒng)的確定性方法
7.3.9 奇異線性系統(tǒng)的隨機方法
7.4 在策略空間的近似
7.4.1 梯度公式
7.4.2 通過仿真計算梯度
7.4.3 梯度評價的關鍵特征
7.4.4 策略和值空間的近似
7.5 注釋、資源和習題
習題
附錄A 動態(tài)規(guī)劃中的測度論問題
A.1 兩階段例子
A.2 可測問題