馬爾可夫決策過(guò)程引論

定　價(jià)：￥28.00

作　者：	胡奇英，劉建庸著
出版社：	西安電子科技大學(xué)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購(gòu)買這本書(shū)可以去

ISBN：	9787560608303	出版時(shí)間：	2000-07-01	包裝：	平裝
開(kāi)本：	26cm	頁(yè)數(shù)：	273	字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　馬爾可夫決策過(guò)程是研究隨機(jī)環(huán)境下多階段決策過(guò)程優(yōu)化問(wèn)題的理論工具，在過(guò)去的幾十年中，隨著生態(tài)科學(xué)、經(jīng)濟(jì)理論、通訊工程以及眾多學(xué)科中需要考慮不確定因素和序列決策問(wèn)題的大量新模型的涌現(xiàn)，進(jìn)一步刺激了馬爾可夫決策過(guò)程在理論上和應(yīng)用領(lǐng)域中長(zhǎng)足發(fā)展。本書(shū)從簡(jiǎn)單的例子開(kāi)始，介紹了馬爾可夫決策過(guò)程的基本概念、決策過(guò)程以及一些常用的基本理論。還介紹了多種最優(yōu)準(zhǔn)則，包括有限階段準(zhǔn)則、折扣準(zhǔn)則、平均準(zhǔn)則、權(quán)重報(bào)酬準(zhǔn)則、概率準(zhǔn)則等。從模型角度考慮了有限狀態(tài)空間、可數(shù)狀態(tài)空間和一般Borel狀態(tài)空間；從決策時(shí)間上來(lái)說(shuō)，考慮了離散時(shí)間、連續(xù)時(shí)間和半馬氏決策時(shí)刻問(wèn)題。本文還介紹了大量的應(yīng)用實(shí)例以及建模方法。本書(shū)可作為高年級(jí)大學(xué)和研究生教材，也可作為運(yùn)籌學(xué)、管理科學(xué)、信息科學(xué)、系統(tǒng)科學(xué)以及計(jì)算機(jī)科學(xué)和工程領(lǐng)域的學(xué)者和技術(shù)人員的參考書(shū)。

作者簡(jiǎn)介

暫缺《馬爾可夫決策過(guò)程引論》作者簡(jiǎn)介

圖書(shū)目錄

第1章引論(1)
1.1離散時(shí)間馬爾可夫決策過(guò)程模型(1)
1.2報(bào)酬過(guò)程與準(zhǔn)則函數(shù)(2)
1.3歷史(6)
參考文獻(xiàn)(7)
第2章有限階段(10)
2.1有限階段最優(yōu)方程(10)
2.2應(yīng)用(13)
2.2.1序貫投資問(wèn)題(13)
2.2.2秘書(shū)選擇問(wèn)題(15)
2.3模函數(shù)與單調(diào)策略(16)
文獻(xiàn)注釋(22)
參考文獻(xiàn)(22)
第3章折扣準(zhǔn)則(23)
3.1折扣最優(yōu)方程(23)
3.1.1無(wú)界報(bào)酬條件及目標(biāo)函數(shù)的存在性(23)
3.1.2最優(yōu)方程(26)
3.2(ε)最優(yōu)策略的性質(zhì)和結(jié)構(gòu)(30)
3.2.1最優(yōu)策略的性質(zhì)和結(jié)構(gòu)(30)
3.2.2ε最優(yōu)策略的性質(zhì)和結(jié)構(gòu)(33)
3.3逐次逼近法與策略迭代法(35)
3.3.1逐次逼近法(35)
3.3.2策略迭代法(40)
3.3.3策略迭代-逐次逼近法(41)
3.4線性規(guī)劃法(45)
3.5狀態(tài)逼近法(47)
3.6Blackwell最優(yōu)準(zhǔn)則(52)
3.6.1羅朗級(jí)數(shù)展開(kāi)(52)
3.6.2求Blackwell最優(yōu)策略的策略迭代法(54)
3.7非可數(shù)決策集(56)
文獻(xiàn)注釋(58)
參考文獻(xiàn)(59)
第4章總報(bào)酬準(zhǔn)則(62)
4.1模型縮減(62)
4.2報(bào)酬函數(shù)和準(zhǔn)則函數(shù)的有限性(63)
4.2.1報(bào)酬函數(shù)的有限性(64)
4.2.2最優(yōu)值函數(shù)的有限性及最優(yōu)方程(66)
4.3充分條件(69)
4.4最優(yōu)方程與(ε)最優(yōu)策略(72)
4.5逐次逼近法(76)
文獻(xiàn)注釋(77)
參考文獻(xiàn)(77)
第5章平均準(zhǔn)則(78)
5.1引言和反例(78)
5.2平均準(zhǔn)則最優(yōu)方程(82)
5.2.1平均準(zhǔn)則最優(yōu)方程與(ε)最優(yōu)策略(82)
5.2.2常返性條件(86)
5.2.3轉(zhuǎn)換為折扣準(zhǔn)則(88)
5.3多鏈馬爾可夫決策過(guò)程(89)
5.3.1最優(yōu)方程系(89)
5.3.2典型三重組(90)
5.4策略迭代法(97)
5.5逐次逼近法(101)
5.5.1基于最優(yōu)方程的逐次逼近法(101)
5.5.2基于最優(yōu)方程系的逐次逼近法(104)
5.6線性規(guī)劃法(108)
5.7最優(yōu)不等式(112)
文獻(xiàn)注釋(120)
參考文獻(xiàn)(122)
第6章半馬爾可夫決策過(guò)程(125)
6.1半馬爾可夫決策過(guò)程模型(125)
6.1.1模型(125)
6.1.2正則性條件(126)
6.1.3準(zhǔn)則函數(shù)(129)
6.2轉(zhuǎn)換為離散時(shí)間馬爾可夫決策過(guò)程(132)
6.2.1期望折扣總報(bào)酬準(zhǔn)則(132)
6.2.2平均準(zhǔn)則(132)
6.2.3馬爾可夫型半馬爾可夫決策過(guò)程(138)
文獻(xiàn)注釋(139)
參考文獻(xiàn)(140)
第七章連續(xù)時(shí)間馬爾可夫決策過(guò)程(141)
7.1連續(xù)時(shí)間馬爾可夫決策過(guò)程模型(141)
7.2期望折扣總報(bào)酬準(zhǔn)則(144)
7.3平均準(zhǔn)則(149)
7.4非平穩(wěn)期望總報(bào)酬準(zhǔn)則(151)
文獻(xiàn)注釋(158)
參考文獻(xiàn)(158)
第8章一般化馬爾可夫決策過(guò)程(160)
8.1狀態(tài)部分可觀察的馬爾可夫決策過(guò)程(160)
8.1.1模型(160)
8.1.2折扣準(zhǔn)則(161)
8.1.3有限階段(166)
8.2約束馬爾可夫決策過(guò)程(169)
8.2.1單約束(169)
8.2.2多約束(173)
8.2.3哈密爾頓圈(177)
8.3多目標(biāo)馬爾可夫決策過(guò)程(180)
8.3.1折扣準(zhǔn)則(181)
8.3.2折扣與平均的加權(quán)準(zhǔn)則(186)
8.4攝動(dòng)馬爾可夫決策過(guò)程(190)
8.4.1攝動(dòng)的非平穩(wěn)平均準(zhǔn)則馬爾可夫決策過(guò)程(191)
8.4.2攝動(dòng)的連續(xù)時(shí)間折扣準(zhǔn)則馬爾可夫決策過(guò)程(197)
文獻(xiàn)注釋(199)
參考文獻(xiàn)(201)
第9章隨機(jī)環(huán)境馬爾可夫決策過(guò)程(206)
9.1半氏環(huán)境連續(xù)時(shí)間馬爾可夫決策過(guò)程(206)
9.1.1模型(206)
9.1.2最優(yōu)方程(210)
9.1.3弱收斂逼近(216)
9.1.4馬爾可夫環(huán)境和位相型環(huán)境(218)
9.2半馬爾可夫環(huán)境半馬爾可夫決策過(guò)程(223)
9.2.1模型(223)
9.2.2最優(yōu)方程(226)
9.2.3馬爾可夫環(huán)境(229)
9.3半馬爾可夫環(huán)境混合馬爾可夫決策過(guò)程(230)
9.3.1模型(230)
9.3.2最優(yōu)方程(232)
9.3.3馬爾可夫環(huán)境(237)
文獻(xiàn)注釋(238)
參考文獻(xiàn)(239)
第10章在排隊(duì)/通信系統(tǒng)中的應(yīng)用(240)
10.1排隊(duì)系統(tǒng)的到達(dá)控制(240)
10.1.1靜態(tài)到達(dá)控制(241)
10.1.2M/M/c系統(tǒng)的動(dòng)態(tài)到達(dá)控制(242)
10.1.3一般動(dòng)態(tài)到達(dá)控制(243)
10.2排隊(duì)系統(tǒng)服務(wù)控制(246)
10.3排隊(duì)網(wǎng)絡(luò)控制(250)
10.3.1到達(dá)控制(250)
10.3.2服務(wù)控制(250)
10.3.3路徑控制(252)
10.4通信網(wǎng)絡(luò)控制(253)
文獻(xiàn)注釋(255)
參考文獻(xiàn)(255)
第11章在其他方面的應(yīng)用(257)
11.1生產(chǎn)/存貯系統(tǒng)最優(yōu)控制(257)
11.2系統(tǒng)最優(yōu)更換/維修(259)
11.2.1模型(259)
11.2.2折扣準(zhǔn)則(262)
11.2.3平均目標(biāo)(264)
11.2.4無(wú)沖擊(265)
11.3質(zhì)量控制(266)
11.4目標(biāo)的最優(yōu)搜索(268)
11.4.1固定目標(biāo)的最優(yōu)搜索(268)
11.4.2活動(dòng)目標(biāo)的最優(yōu)搜索(269)
11.5柔性制造系統(tǒng)最優(yōu)路徑控制(270)
11.5.1一類流水線的最優(yōu)動(dòng)態(tài)負(fù)荷分配(270)
11.5.2動(dòng)態(tài)路徑調(diào)度(271)
文獻(xiàn)注釋(272)
參考文獻(xiàn)(272)