注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)人工智能增強(qiáng)學(xué)習(xí)與近似動態(tài)規(guī)劃

增強(qiáng)學(xué)習(xí)與近似動態(tài)規(guī)劃

增強(qiáng)學(xué)習(xí)與近似動態(tài)規(guī)劃

定 價(jià):¥45.00

作 者: 徐昕 著
出版社: 科學(xué)出版社
叢編項(xiàng): 智能科學(xué)技術(shù)著作叢書
標(biāo) 簽: 人工智能

ISBN: 9787030275653 出版時(shí)間: 2010-05-01 包裝: 平裝
開本: 16開 頁數(shù): 212 字?jǐn)?shù):  

內(nèi)容簡介

  《增強(qiáng)學(xué)習(xí)與近似動態(tài)規(guī)劃》對增強(qiáng)學(xué)習(xí)與近似動態(tài)規(guī)劃的理論、算法及應(yīng)用進(jìn)行了深入研究和論述。主要內(nèi)容包括:求解Markov鏈學(xué)習(xí)預(yù)測問題的時(shí)域差值學(xué)習(xí)算法和理論,求解連續(xù)空間Markov決策問題的梯度增強(qiáng)學(xué)習(xí)算法以及進(jìn)化一梯度混合增強(qiáng)學(xué)習(xí)算法,基于核的近似動態(tài)規(guī)劃算法,增強(qiáng)學(xué)習(xí)在移動機(jī)器人導(dǎo)航與控制中的應(yīng)用等?!对鰪?qiáng)學(xué)習(xí)與近似動態(tài)規(guī)劃》是作者在多個(gè)國家自然科學(xué)基金項(xiàng)目資助下取得的研究成果的總結(jié),意在推動增強(qiáng)學(xué)習(xí)與近似動態(tài)規(guī)劃理論與應(yīng)用的發(fā)展,對于智能科學(xué)的前沿研究和智能學(xué)習(xí)系統(tǒng)的應(yīng)用具有重要的科學(xué)意義。《增強(qiáng)學(xué)習(xí)與近似動態(tài)規(guī)劃》可作為高等院校與科研院所中從事人工智能與智能信息處理、機(jī)器人與智能控制、智能決策支持系統(tǒng)等專業(yè)領(lǐng)域的研究和教學(xué)用書,也可作為自動化、計(jì)算機(jī)與管理學(xué)領(lǐng)域其他相關(guān)專業(yè)師生及科研人員的參考書。

作者簡介

暫缺《增強(qiáng)學(xué)習(xí)與近似動態(tài)規(guī)劃》作者簡介

圖書目錄

《智能科學(xué)技術(shù)著作叢書》序
前言
第1章 緒論
1.1 引言
1.2 增強(qiáng)學(xué)習(xí)與近似動態(tài)規(guī)劃的研究概況
1.2.1 增強(qiáng)學(xué)習(xí)研究的相關(guān)學(xué)科背景
1.2.2 增強(qiáng)學(xué)習(xí)算法的研究進(jìn)展
1.2.3 增強(qiáng)學(xué)習(xí)的泛化方法與近似動態(tài)規(guī)劃
1.2.4 增強(qiáng)學(xué)習(xí)相關(guān)理論研究與多Agent增強(qiáng)學(xué)習(xí)
1.2.5 增強(qiáng)學(xué)習(xí)應(yīng)用的研究進(jìn)展
1.3 移動機(jī)器人導(dǎo)航控制方法的研究現(xiàn)狀和發(fā)展趨勢
1.3.1 移動機(jī)器人體系結(jié)構(gòu)的研究進(jìn)展
1.3.2 移動機(jī)器人反應(yīng)式導(dǎo)航方法的研究概況
1.3.3 移動機(jī)器人路徑跟蹤控制的研究概況
1.4 全書的組織結(jié)構(gòu)
參考文獻(xiàn)
第2章 線性時(shí)域差值學(xué)習(xí)理論與算法
2.1 Markov鏈與多步學(xué)習(xí)預(yù)測問題
2.1.1 Markov鏈的基礎(chǔ)理論
2.1.2 基于Markov鏈的多步學(xué)習(xí)預(yù)測問題
2.2 TD(λ)學(xué)習(xí)算法
2.2.1 表格型TD(λ)學(xué)習(xí)算法
2.2.2 基于值函數(shù)逼近的TD(λ)學(xué)習(xí)算法
2.3 多步遞推最小二乘TD學(xué)習(xí)算法及其收斂性理論
2.3.1 多步遞推最小二乘TD(RLS-TD(λ)學(xué)習(xí)算法
2.3.2 RLS-TD(λ)學(xué)習(xí)算法的一致收斂性分析
2.4 多步學(xué)習(xí)預(yù)測的仿真研究
2.4.1 HlopWorld問題學(xué)習(xí)預(yù)測仿真
2.4.2 連續(xù)狀態(tài)隨機(jī)行走問題的學(xué)習(xí)預(yù)測仿真
2.5 小結(jié)
參考文獻(xiàn)
第3章 基于核的時(shí)域差值學(xué)習(xí)算法
3.1 核方法與基于核的學(xué)習(xí)機(jī)器
3.1.1 核函數(shù)的概念與性質(zhì)
3.1.2 再生核Hilbert空間與核函數(shù)方法
3.2 核最小二乘時(shí)域差值學(xué)習(xí)算法
3.2.1 線性TD(λ)學(xué)習(xí)算法
3.2.2 KLS-TD(λ)學(xué)習(xí)算法
3.2.3 學(xué)習(xí)預(yù)測實(shí)驗(yàn)與比較
3.3 小結(jié)
參考文獻(xiàn)
第4章 求解Markov決策問題的梯度增強(qiáng)學(xué)習(xí)算法
4.1 Markov決策過程與表格型增強(qiáng)學(xué)習(xí)算法
4.1.1 Markov決策過程及其最優(yōu)值函數(shù)
4.1.2 表格型增強(qiáng)學(xué)習(xí)算法及其收斂性理論
4.2 基于改進(jìn)CMAC的直接梯度增強(qiáng)學(xué)習(xí)算法
4.2.1 CMAC的結(jié)構(gòu)
4.2.2 基于C2MAC的直接梯度增強(qiáng)學(xué)習(xí)算法
4.2.3 兩種改進(jìn)的C2MAC編碼結(jié)構(gòu)及其應(yīng)用實(shí)例
4.3 基于值函數(shù)逼近的殘差梯度增強(qiáng)學(xué)習(xí)算法
4.3.1 多層前饋神經(jīng)網(wǎng)絡(luò)函數(shù)逼近器與已有的梯度增強(qiáng)學(xué)習(xí)算法
4.3.2 非平穩(wěn)策略殘差梯度(RGNP)增強(qiáng)學(xué)習(xí)算法
4.3.3 RGNP學(xué)習(xí)算法的收斂性和近似最優(yōu)策略性能的理論分析
4.3.4 Mountain-Car問題的仿真研究
4.3.5 Acrobot學(xué)習(xí)控制的仿真研究
4.4 求解連續(xù)行為空間Markov決策問題的快速AHC學(xué)習(xí)算法
4.4.1 AHC學(xué)習(xí)算法與Actor-Critic學(xué)習(xí)控制結(jié)構(gòu)
4.4.2 Fast-AHC學(xué)習(xí)算法
4.4.3 連續(xù)控制量條件下的倒立擺學(xué)習(xí)控制仿真研究
4.4.4 連續(xù)控制量條件下Acrobot系統(tǒng)的學(xué)習(xí)控制
4.5 小結(jié)
參考文獻(xiàn)
第5章 求解Markov決策問題的進(jìn)化-梯度混合增強(qiáng)學(xué)習(xí)算法
5.1 進(jìn)化計(jì)算的基本原理和方法
5.1.1 進(jìn)化計(jì)算的基本原理和算法框架
5.1.2 進(jìn)化算法的基本要素
5.1.3 進(jìn)化算法的控制參數(shù)和性能評估
5.2 求解離散行為空間MDP的進(jìn)化-梯度混合算法
5.2.1 HERG算法的設(shè)計(jì)要點(diǎn)
5.2.2 HERG算法的流程
5.2.3 HtERG算法的應(yīng)用實(shí)例:Mountain-Car學(xué)習(xí)控制問題
5.2.4 Acrobot系統(tǒng)的進(jìn)化增強(qiáng)學(xué)習(xí)仿真
5.3 求解連續(xù)行為空間MDP的進(jìn)化-梯度混合增強(qiáng)學(xué)習(xí)算法
5.3.1 進(jìn)化AHC算法
5.3.2 連續(xù)控制量條件下Acrobot系統(tǒng)的進(jìn)化增強(qiáng)學(xué)習(xí)仿真
5.4 小結(jié)
參考文獻(xiàn)
第6章 基于核的近似動態(tài)規(guī)劃算法與理論
6.1 增強(qiáng)學(xué)習(xí)與近似動態(tài)規(guī)劃的若干核心問題
6.2 基于核的近似策略迭代算法與收斂性理論
6.2.1 策略迭代與TD學(xué)習(xí)算法
6.2.2 核策略迭代算法KLSPI的基本框架
6.2.3 采用核稀疏化技術(shù)的KLSTD-Q時(shí)域差值算法
6.2.4 KLSPI算法的收斂性分析
6.3 核策略迭代算法的性能測試實(shí)驗(yàn)研究
6.3.1 具有20個(gè)狀態(tài)的隨機(jī)Markov鏈問題
6.3.2 具有50個(gè)狀態(tài)的隨機(jī)Markov決策問題
6.3.3 隨機(jī)倒立擺學(xué)習(xí)控制問題
6.4 小結(jié)
參考文獻(xiàn)
第7章 基于增強(qiáng)學(xué)習(xí)的移動機(jī)器人反應(yīng)式導(dǎo)航方法
7.1 基于分層學(xué)習(xí)的移動機(jī)器人混合式體系結(jié)構(gòu)
7.2 基于增強(qiáng)學(xué)習(xí)的移動機(jī)器人反應(yīng)式導(dǎo)航體系結(jié)構(gòu)與算法
7.2.1 未知環(huán)境中移動機(jī)器人導(dǎo)航混合式體系結(jié)構(gòu)的具體設(shè)計(jì)
7.2.2 基于神經(jīng)網(wǎng)絡(luò)增強(qiáng)學(xué)習(xí)的反應(yīng)式導(dǎo)航算法
7.3 移動機(jī)器人增強(qiáng)學(xué)習(xí)導(dǎo)航的仿真和實(shí)驗(yàn)研究
7.3.1 CIT-AVT-VI移動機(jī)器人平臺的傳感器系統(tǒng)與仿真實(shí)驗(yàn)環(huán)境
7.3.2 增強(qiáng)學(xué)習(xí)導(dǎo)航的仿真研究
7.3.3 CIT-AVT-VI移動機(jī)器人的實(shí)時(shí)學(xué)習(xí)導(dǎo)航控制實(shí)驗(yàn)
7.4 小結(jié)
參考文獻(xiàn)
第8章 RL與ADP在移動機(jī)器人運(yùn)動控制中的應(yīng)用
8.1 基于增強(qiáng)學(xué)習(xí)的自適應(yīng)PID控制器
8.2 自動駕駛汽車的側(cè)向增強(qiáng)學(xué)習(xí)控制
8.2.1 自動駕駛汽車的動力學(xué)模型
8.2.2 用于自動駕駛汽車側(cè)向控制的增強(qiáng)學(xué)習(xí)PID控制器設(shè)計(jì)
8.2.3 自動駕駛汽車直線路徑跟蹤仿真
8.3 基于在線增強(qiáng)學(xué)習(xí)的室內(nèi)移動機(jī)器人路徑跟蹤控制
8.3.1 一類室內(nèi)移動機(jī)器人系統(tǒng)的運(yùn)動學(xué)和動力學(xué)模型
8.3.2 增強(qiáng)學(xué)習(xí)路徑跟蹤控制器設(shè)計(jì)
8.3.3 參考路徑為直線時(shí)的仿真研究
8.3.4 參考路徑為圓弧時(shí)的仿真研究
8.3.5 CIT-AVT-VI移動機(jī)器人實(shí)時(shí)在線學(xué)習(xí)路徑跟蹤實(shí)驗(yàn)
8.4 采用近似策略迭代的移動機(jī)器人學(xué)習(xí)控制方法研究
8.4.1 基于近似策略迭代的學(xué)習(xí)控制方法與仿真研究
8.4.2 基于P3-AT平臺的學(xué)習(xí)控制器設(shè)計(jì)
8.4.3 直線跟隨實(shí)驗(yàn)
8.4.4 曲線跟隨實(shí)驗(yàn)
8.5 小結(jié)
參考文獻(xiàn)
第9章 總結(jié)與展望

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號