注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)人工智能多智能體機(jī)器學(xué)習(xí):強(qiáng)化學(xué)習(xí)方法

多智能體機(jī)器學(xué)習(xí):強(qiáng)化學(xué)習(xí)方法

多智能體機(jī)器學(xué)習(xí):強(qiáng)化學(xué)習(xí)方法

定 價(jià):¥69.00

作 者: [加] 霍華德 M.施瓦茲 著;連曉峰 譯
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787111569602 出版時(shí)間: 2017-07-01 包裝: 平裝
開本: 16開 頁數(shù): 185 字?jǐn)?shù):  

內(nèi)容簡介

  《多智能體機(jī)器學(xué)習(xí):強(qiáng)化學(xué)習(xí)方法》主要介紹了多智能體機(jī)器人強(qiáng)化學(xué)習(xí)的相關(guān)內(nèi)容。全書共6章,首先介紹了幾種常用的監(jiān)督式學(xué)習(xí)方法,在此基礎(chǔ)上,介紹了單智能體強(qiáng)化學(xué)習(xí)中的學(xué)習(xí)結(jié)構(gòu)、值函數(shù)、馬爾科夫決策過程、策略迭代、時(shí)間差分學(xué)習(xí)、Q學(xué)習(xí)和資格跡等概念和方法。然后,介紹了雙人矩陣博弈問題、多人隨機(jī)博弈學(xué)習(xí)問題,并通過3種博弈游戲詳細(xì)介紹了納什均衡、學(xué)習(xí)算法、學(xué)習(xí)自動(dòng)機(jī)、滯后錨算法等內(nèi)容,并提出LRI滯后錨算法和指數(shù)移動(dòng)平均Q學(xué)習(xí)算法等,并進(jìn)行了分析比較。接下來,介紹了模糊系統(tǒng)和模糊學(xué)習(xí),并通過仿真示例詳細(xì)分析算法。后,介紹了群智能學(xué)習(xí)進(jìn)化以及性格特征概念和應(yīng)用。全書內(nèi)容豐富,重點(diǎn)突出。

作者簡介

  Howard M.Schwartz 博士,在加拿大魁北克蒙特利爾的麥吉爾大學(xué)獲得工學(xué)學(xué)士學(xué)位,在美國馬薩諸塞州劍橋麻省理工學(xué)院獲得碩士和博士學(xué)位,現(xiàn)為加拿大渥太華卡爾頓大學(xué)系統(tǒng)與計(jì)算機(jī)工程系的教授,研究領(lǐng)域包括自適應(yīng)和智能控制系統(tǒng)、機(jī)器人、機(jī)器學(xué)習(xí)、多智能體學(xué)習(xí)、系統(tǒng)辨識(shí)和狀態(tài)估計(jì)。

圖書目錄

譯者序
原書前言
第1章監(jiān)督式學(xué)習(xí)概述
1 1 LS算法
1 2 RLS算法
1 3 LMS算法
1 4隨機(jī)逼近法
參考文獻(xiàn)
第2章單智能體強(qiáng)化學(xué)習(xí)
2 1簡介
2 2 n臂賭博機(jī)問題
2 3學(xué)習(xí)結(jié)構(gòu)
2 4值函數(shù)
2 5最優(yōu)值函數(shù)
2 5.1網(wǎng)格示例
2 6 MDP
2 7學(xué)習(xí)值函數(shù)
2 8策略迭代
2 9 時(shí)間差分學(xué)習(xí)
2 10狀態(tài)一行為函數(shù)的時(shí)間差分學(xué)習(xí)
2 11 Q學(xué)習(xí)
2 12資格跡
參考文獻(xiàn)
第3章雙人矩陣博弈學(xué)習(xí)
3 1矩陣博弈
3 2雙人矩陣博弈中的納什均衡
3 3雙人零和矩陣博弈中的線性規(guī)劃
3 4學(xué)習(xí)算法
3 5梯度上升算法
3 6 WoLF IGA算法
3 7 PHC算法
3 8 WoLF PHC算法
3 9矩陣博弈中的分散式學(xué)習(xí)
3 10學(xué)習(xí)自動(dòng)機(jī)
3 11線性回報(bào)一無為算法
3 12線性回報(bào)一懲罰算法
3 13滯后錨算法
3 14 LR.滯后錨算法
3 14.1仿真
參考文獻(xiàn)
第4章多人隨機(jī)博弈學(xué)習(xí)
4 1簡介
4 2多人隨機(jī)博弈
4 3極大極小Q學(xué)習(xí)算法
4 3.1 2 x2網(wǎng)格博弈
4 4納什Q學(xué)習(xí)算法
4 4.1學(xué)習(xí)過程
4 5單純形算法
4 6 Lemke Howson算法
4 7納什Q學(xué)習(xí)算法實(shí)現(xiàn)
4 8朋友或敵人Q學(xué)習(xí)算法
4 9無限梯度上升算法
4 10 PHC算法
4 11 WoLF PHC算法
4 12 網(wǎng)格世界中的疆土防御問題
4 12.1仿真和結(jié)果
4 13 LR.滯后錨算法在隨機(jī)博弈中的擴(kuò)展
4 14 EMA Q學(xué)習(xí)算法
4 15 EMA Q學(xué)習(xí)與其他方法的仿真與結(jié)果比較
4 15.1矩陣博弈
4 15 2隨機(jī)博弈
參考文獻(xiàn)
第5章微分博弈
5 1簡介
5 2模糊系統(tǒng)簡述
5 2.1模糊集和模糊規(guī)則
5 2 2模糊推理機(jī)
5 2 3模糊化與去模糊化
5 2 4模糊系統(tǒng)及其示例
5 3模糊Q學(xué)習(xí)
5 4 FACL
5 5瘋狂司機(jī)微分博弈
5 6模糊控制器結(jié)構(gòu)
5.7 Q(A)學(xué)習(xí)模糊推理系統(tǒng)
5 8瘋狂司機(jī)博弈的仿真結(jié)果
5 9雙車追捕者一逃跑者博弈中的學(xué)習(xí)算法
5 10雙車博弈仿真
5 11 疆土防御微分博弈
5 12疆土防御微分博弈中的形成回報(bào)
5 13仿真結(jié)果
5 13.1 個(gè)防御者對(duì)一個(gè)人侵者
5 13 2兩個(gè)防御者對(duì)一個(gè)人侵者
參考文獻(xiàn)
第6章群智能與性格特征的進(jìn)化
6 1簡介
6 2群智能的進(jìn)化
6 3環(huán)境表征
6 4群機(jī)器人的性格特征
6 5性格特征的進(jìn)化
6 6仿真結(jié)構(gòu)框架
6 7零和博弈示例
6 7.1收斂性
6 7 2仿真結(jié)果
6 8后續(xù)仿真實(shí)現(xiàn)
6 9機(jī)器人走出房間
6 10機(jī)器人跟蹤目標(biāo)
6 11小結(jié)
參考文獻(xiàn)

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)