多智能體機器學習：強化學習方法

定　價：￥69.00

作　者：	[加] 霍華德 M.施瓦茲著；連曉峰譯
出版社：	機械工業(yè)出版社
叢編項：
標　簽：	暫缺

購買這本書可以去

ISBN：	9787111569602	出版時間：	2017-07-01	包裝：	平裝
開本：	16開	頁數(shù)：	185	字數(shù)：

內(nèi)容簡介

　　《多智能體機器學習：強化學習方法》主要介紹了多智能體機器人強化學習的相關內(nèi)容。全書共6章，首先介紹了幾種常用的監(jiān)督式學習方法，在此基礎上，介紹了單智能體強化學習中的學習結(jié)構(gòu)、值函數(shù)、馬爾科夫決策過程、策略迭代、時間差分學習、Q學習和資格跡等概念和方法。然后，介紹了雙人矩陣博弈問題、多人隨機博弈學習問題，并通過3種博弈游戲詳細介紹了納什均衡、學習算法、學習自動機、滯后錨算法等內(nèi)容，并提出LRI滯后錨算法和指數(shù)移動平均Q學習算法等，并進行了分析比較。接下來，介紹了模糊系統(tǒng)和模糊學習，并通過仿真示例詳細分析算法。后，介紹了群智能學習進化以及性格特征概念和應用。全書內(nèi)容豐富，重點突出。

作者簡介

　　Howard M.Schwartz 博士，在加拿大魁北克蒙特利爾的麥吉爾大學獲得工學學士學位，在美國馬薩諸塞州劍橋麻省理工學院獲得碩士和博士學位，現(xiàn)為加拿大渥太華卡爾頓大學系統(tǒng)與計算機工程系的教授，研究領域包括自適應和智能控制系統(tǒng)、機器人、機器學習、多智能體學習、系統(tǒng)辨識和狀態(tài)估計。

圖書目錄

譯者序
原書前言
第1章監(jiān)督式學習概述
1 1 LS算法
1 2 RLS算法
1 3 LMS算法
1 4隨機逼近法
參考文獻
第2章單智能體強化學習
2 1簡介
2 2 n臂賭博機問題
2 3學習結(jié)構(gòu)
2 4值函數(shù)
2 5最優(yōu)值函數(shù)
2 5.1網(wǎng)格示例
2 6 MDP
2 7學習值函數(shù)
2 8策略迭代
2 9 時間差分學習
2 10狀態(tài)一行為函數(shù)的時間差分學習
2 11 Q學習
2 12資格跡
參考文獻
第3章雙人矩陣博弈學習
3 1矩陣博弈
3 2雙人矩陣博弈中的納什均衡
3 3雙人零和矩陣博弈中的線性規(guī)劃
3 4學習算法
3 5梯度上升算法
3 6 WoLF IGA算法
3 7 PHC算法
3 8 WoLF PHC算法
3 9矩陣博弈中的分散式學習
3 10學習自動機
3 11線性回報一無為算法
3 12線性回報一懲罰算法
3 13滯后錨算法
3 14 LR．滯后錨算法
3 14.1仿真
參考文獻
第4章多人隨機博弈學習
4 1簡介
4 2多人隨機博弈
4 3極大極小Q學習算法
4 3.1 2 x2網(wǎng)格博弈
4 4納什Q學習算法
4 4.1學習過程
4 5單純形算法
4 6 Lemke Howson算法
4 7納什Q學習算法實現(xiàn)
4 8朋友或敵人Q學習算法
4 9無限梯度上升算法
4 10 PHC算法
4 11 WoLF PHC算法
4 12 網(wǎng)格世界中的疆土防御問題
4 12.1仿真和結(jié)果
4 13 LR．滯后錨算法在隨機博弈中的擴展
4 14 EMA Q學習算法
4 15 EMA Q學習與其他方法的仿真與結(jié)果比較
4 15.1矩陣博弈
4 15 2隨機博弈
參考文獻
第5章微分博弈
5 1簡介
5 2模糊系統(tǒng)簡述
5 2.1模糊集和模糊規(guī)則
5 2 2模糊推理機
5 2 3模糊化與去模糊化
5 2 4模糊系統(tǒng)及其示例
5 3模糊Q學習
5 4 FACL
5 5瘋狂司機微分博弈
5 6模糊控制器結(jié)構(gòu)
5.7 Q(A)學習模糊推理系統(tǒng)
5 8瘋狂司機博弈的仿真結(jié)果
5 9雙車追捕者一逃跑者博弈中的學習算法
5 10雙車博弈仿真
5 11 疆土防御微分博弈
5 12疆土防御微分博弈中的形成回報
5 13仿真結(jié)果
5 13.1 個防御者對一個人侵者
5 13 2兩個防御者對一個人侵者
參考文獻
第6章群智能與性格特征的進化
6 1簡介
6 2群智能的進化
6 3環(huán)境表征
6 4群機器人的性格特征
6 5性格特征的進化
6 6仿真結(jié)構(gòu)框架
6 7零和博弈示例
6 7.1收斂性
6 7 2仿真結(jié)果
6 8后續(xù)仿真實現(xiàn)
6 9機器人走出房間
6 10機器人跟蹤目標
6 11小結(jié)
參考文獻