注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡人工智能增強學習與近似動態(tài)規(guī)劃

增強學習與近似動態(tài)規(guī)劃

增強學習與近似動態(tài)規(guī)劃

定 價:¥45.00

作 者: 徐昕 著
出版社: 科學出版社
叢編項: 智能科學技術著作叢書
標 簽: 人工智能

ISBN: 9787030275653 出版時間: 2010-05-01 包裝: 平裝
開本: 16開 頁數(shù): 212 字數(shù):  

內容簡介

  《增強學習與近似動態(tài)規(guī)劃》對增強學習與近似動態(tài)規(guī)劃的理論、算法及應用進行了深入研究和論述。主要內容包括:求解Markov鏈學習預測問題的時域差值學習算法和理論,求解連續(xù)空間Markov決策問題的梯度增強學習算法以及進化一梯度混合增強學習算法,基于核的近似動態(tài)規(guī)劃算法,增強學習在移動機器人導航與控制中的應用等?!对鰪妼W習與近似動態(tài)規(guī)劃》是作者在多個國家自然科學基金項目資助下取得的研究成果的總結,意在推動增強學習與近似動態(tài)規(guī)劃理論與應用的發(fā)展,對于智能科學的前沿研究和智能學習系統(tǒng)的應用具有重要的科學意義?!对鰪妼W習與近似動態(tài)規(guī)劃》可作為高等院校與科研院所中從事人工智能與智能信息處理、機器人與智能控制、智能決策支持系統(tǒng)等專業(yè)領域的研究和教學用書,也可作為自動化、計算機與管理學領域其他相關專業(yè)師生及科研人員的參考書。

作者簡介

暫缺《增強學習與近似動態(tài)規(guī)劃》作者簡介

圖書目錄

《智能科學技術著作叢書》序
前言
第1章 緒論
1.1 引言
1.2 增強學習與近似動態(tài)規(guī)劃的研究概況
1.2.1 增強學習研究的相關學科背景
1.2.2 增強學習算法的研究進展
1.2.3 增強學習的泛化方法與近似動態(tài)規(guī)劃
1.2.4 增強學習相關理論研究與多Agent增強學習
1.2.5 增強學習應用的研究進展
1.3 移動機器人導航控制方法的研究現(xiàn)狀和發(fā)展趨勢
1.3.1 移動機器人體系結構的研究進展
1.3.2 移動機器人反應式導航方法的研究概況
1.3.3 移動機器人路徑跟蹤控制的研究概況
1.4 全書的組織結構
參考文獻
第2章 線性時域差值學習理論與算法
2.1 Markov鏈與多步學習預測問題
2.1.1 Markov鏈的基礎理論
2.1.2 基于Markov鏈的多步學習預測問題
2.2 TD(λ)學習算法
2.2.1 表格型TD(λ)學習算法
2.2.2 基于值函數(shù)逼近的TD(λ)學習算法
2.3 多步遞推最小二乘TD學習算法及其收斂性理論
2.3.1 多步遞推最小二乘TD(RLS-TD(λ)學習算法
2.3.2 RLS-TD(λ)學習算法的一致收斂性分析
2.4 多步學習預測的仿真研究
2.4.1 HlopWorld問題學習預測仿真
2.4.2 連續(xù)狀態(tài)隨機行走問題的學習預測仿真
2.5 小結
參考文獻
第3章 基于核的時域差值學習算法
3.1 核方法與基于核的學習機器
3.1.1 核函數(shù)的概念與性質
3.1.2 再生核Hilbert空間與核函數(shù)方法
3.2 核最小二乘時域差值學習算法
3.2.1 線性TD(λ)學習算法
3.2.2 KLS-TD(λ)學習算法
3.2.3 學習預測實驗與比較
3.3 小結
參考文獻
第4章 求解Markov決策問題的梯度增強學習算法
4.1 Markov決策過程與表格型增強學習算法
4.1.1 Markov決策過程及其最優(yōu)值函數(shù)
4.1.2 表格型增強學習算法及其收斂性理論
4.2 基于改進CMAC的直接梯度增強學習算法
4.2.1 CMAC的結構
4.2.2 基于C2MAC的直接梯度增強學習算法
4.2.3 兩種改進的C2MAC編碼結構及其應用實例
4.3 基于值函數(shù)逼近的殘差梯度增強學習算法
4.3.1 多層前饋神經(jīng)網(wǎng)絡函數(shù)逼近器與已有的梯度增強學習算法
4.3.2 非平穩(wěn)策略殘差梯度(RGNP)增強學習算法
4.3.3 RGNP學習算法的收斂性和近似最優(yōu)策略性能的理論分析
4.3.4 Mountain-Car問題的仿真研究
4.3.5 Acrobot學習控制的仿真研究
4.4 求解連續(xù)行為空間Markov決策問題的快速AHC學習算法
4.4.1 AHC學習算法與Actor-Critic學習控制結構
4.4.2 Fast-AHC學習算法
4.4.3 連續(xù)控制量條件下的倒立擺學習控制仿真研究
4.4.4 連續(xù)控制量條件下Acrobot系統(tǒng)的學習控制
4.5 小結
參考文獻
第5章 求解Markov決策問題的進化-梯度混合增強學習算法
5.1 進化計算的基本原理和方法
5.1.1 進化計算的基本原理和算法框架
5.1.2 進化算法的基本要素
5.1.3 進化算法的控制參數(shù)和性能評估
5.2 求解離散行為空間MDP的進化-梯度混合算法
5.2.1 HERG算法的設計要點
5.2.2 HERG算法的流程
5.2.3 HtERG算法的應用實例:Mountain-Car學習控制問題
5.2.4 Acrobot系統(tǒng)的進化增強學習仿真
5.3 求解連續(xù)行為空間MDP的進化-梯度混合增強學習算法
5.3.1 進化AHC算法
5.3.2 連續(xù)控制量條件下Acrobot系統(tǒng)的進化增強學習仿真
5.4 小結
參考文獻
第6章 基于核的近似動態(tài)規(guī)劃算法與理論
6.1 增強學習與近似動態(tài)規(guī)劃的若干核心問題
6.2 基于核的近似策略迭代算法與收斂性理論
6.2.1 策略迭代與TD學習算法
6.2.2 核策略迭代算法KLSPI的基本框架
6.2.3 采用核稀疏化技術的KLSTD-Q時域差值算法
6.2.4 KLSPI算法的收斂性分析
6.3 核策略迭代算法的性能測試實驗研究
6.3.1 具有20個狀態(tài)的隨機Markov鏈問題
6.3.2 具有50個狀態(tài)的隨機Markov決策問題
6.3.3 隨機倒立擺學習控制問題
6.4 小結
參考文獻
第7章 基于增強學習的移動機器人反應式導航方法
7.1 基于分層學習的移動機器人混合式體系結構
7.2 基于增強學習的移動機器人反應式導航體系結構與算法
7.2.1 未知環(huán)境中移動機器人導航混合式體系結構的具體設計
7.2.2 基于神經(jīng)網(wǎng)絡增強學習的反應式導航算法
7.3 移動機器人增強學習導航的仿真和實驗研究
7.3.1 CIT-AVT-VI移動機器人平臺的傳感器系統(tǒng)與仿真實驗環(huán)境
7.3.2 增強學習導航的仿真研究
7.3.3 CIT-AVT-VI移動機器人的實時學習導航控制實驗
7.4 小結
參考文獻
第8章 RL與ADP在移動機器人運動控制中的應用
8.1 基于增強學習的自適應PID控制器
8.2 自動駕駛汽車的側向增強學習控制
8.2.1 自動駕駛汽車的動力學模型
8.2.2 用于自動駕駛汽車側向控制的增強學習PID控制器設計
8.2.3 自動駕駛汽車直線路徑跟蹤仿真
8.3 基于在線增強學習的室內移動機器人路徑跟蹤控制
8.3.1 一類室內移動機器人系統(tǒng)的運動學和動力學模型
8.3.2 增強學習路徑跟蹤控制器設計
8.3.3 參考路徑為直線時的仿真研究
8.3.4 參考路徑為圓弧時的仿真研究
8.3.5 CIT-AVT-VI移動機器人實時在線學習路徑跟蹤實驗
8.4 采用近似策略迭代的移動機器人學習控制方法研究
8.4.1 基于近似策略迭代的學習控制方法與仿真研究
8.4.2 基于P3-AT平臺的學習控制器設計
8.4.3 直線跟隨實驗
8.4.4 曲線跟隨實驗
8.5 小結
參考文獻
第9章 總結與展望

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號