注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)程序設(shè)計(jì)綜合強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

定 價(jià):¥59.80

作 者: 魏慶來,王飛躍
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787302589723 出版時(shí)間: 2022-07-01 包裝:
開本: 16開 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  強(qiáng)化學(xué)習(xí)是目前機(jī)器學(xué)習(xí)乃至人工智能領(lǐng)域發(fā)展最快的分支之一。強(qiáng)化學(xué)習(xí)的基本思想是通過與環(huán)境的交互、智能體或智能算法獲取相關(guān)智能,其具體過程就是根據(jù)環(huán)境反饋得到的獎(jiǎng)勵(lì)不斷調(diào)整自身的策略進(jìn)而獲得獎(jiǎng)勵(lì)決策的學(xué)習(xí)歷程。本書主要講述了強(qiáng)化學(xué)習(xí)的基本原理和基本方法,基于強(qiáng)化學(xué)習(xí)的控制、決策和優(yōu)化方法設(shè)計(jì)與理論分析,深度強(qiáng)化學(xué)習(xí)原理以及平行強(qiáng)化學(xué)習(xí)等未來強(qiáng)化學(xué)習(xí)的發(fā)展新方向,展示從先行后知到先知后行,再到知行合一的混合平行智能思路。 \n \n本書可作為高等學(xué)校人工智能、機(jī)器學(xué)習(xí)、智能控制、智能決策、智慧管理、系統(tǒng)工程以及應(yīng)用數(shù)學(xué)等專業(yè)的本科生或研究生教材,亦可供相關(guān)專業(yè)科研人員和工程技術(shù)人員參考。 \n \n \n

作者簡(jiǎn)介

暫缺《強(qiáng)化學(xué)習(xí)》作者簡(jiǎn)介

圖書目錄

第1章強(qiáng)化學(xué)習(xí)概論

\n


\n

1.1引言

\n


\n

1.2強(qiáng)化學(xué)習(xí)的發(fā)展歷程

\n


\n

1.3強(qiáng)化學(xué)習(xí)的研究現(xiàn)狀

\n


\n

1.4本書內(nèi)容架構(gòu)

\n


\n

參考文獻(xiàn)

\n


\n

第2章馬爾可夫決策過程

\n


\n

2.1馬爾可夫決策過程

\n


\n


\n

2.2策略與代價(jià)函數(shù)

\n


\n

2.3最優(yōu)策略與最優(yōu)代價(jià)函數(shù)

\n


\n

參考文獻(xiàn)

\n


\n

第3章動(dòng)態(tài)規(guī)劃

\n


\n

3.1動(dòng)態(tài)規(guī)劃的興起

\n


\n

3.2動(dòng)態(tài)規(guī)劃基本思想: 多級(jí)決策過程

\n


\n

3.3最優(yōu)性原理與遞推方程

\n


\n

3.4離散時(shí)間動(dòng)態(tài)規(guī)劃

\n


\n

3.5連續(xù)時(shí)間動(dòng)態(tài)規(guī)劃

\n


\n

3.6動(dòng)態(tài)規(guī)劃的挑戰(zhàn)

\n


\n


\n

參考文獻(xiàn)

\n


\n

第4章蒙特卡洛學(xué)習(xí)方法

\n


\n

4.1蒙特卡洛方法背景

\n


\n

4.1.1蒙特卡洛方法的由來

\n


\n

4.1.2基于模型的算法與無模型算法比較

\n


\n

4.1.3蒙特卡洛模擬的思路

\n


\n


\n

4.2蒙特卡洛預(yù)測(cè)

\n


\n

4.2.1初次訪問蒙特卡洛預(yù)測(cè)

\n


\n

4.2.2歷次訪問蒙特卡洛預(yù)測(cè)

\n


\n

4.2.3增量計(jì)算技巧

\n


\n

4.3蒙特卡洛控制

\n


\n

4.3.1初始探索問題

\n


\n

4.3.2在策方法: ε貪心算法

\n


\n

4.3.3脫策算法: 重要性采樣

\n


\n

4.4蒙特卡洛強(qiáng)化學(xué)習(xí)算法總結(jié)

\n


\n

參考文獻(xiàn)

\n


\n


\n


\n


\n


\n


\n


\n

第5章時(shí)序差分學(xué)習(xí)

\n


\n

5.1時(shí)序差分學(xué)習(xí)基本概念

\n


\n

5.2時(shí)序差分學(xué)習(xí)算法

\n


\n

5.3n步回報(bào) 

\n


\n

5.4TD(λ)算法

\n


\n


\n

參考文獻(xiàn)

\n


\n

第6章神經(jīng)網(wǎng)絡(luò)

\n


\n

6.1神經(jīng)網(wǎng)絡(luò)的發(fā)展歷史

\n


\n

6.2MP神經(jīng)元模型

\n


\n

6.3前饋神經(jīng)網(wǎng)絡(luò)

\n


\n

6.3.1感知機(jī)

\n


\n

6.3.2誤差反向傳播算法

\n


\n

6.3.3徑向基網(wǎng)絡(luò)

\n


\n


\n

6.4其他常見的神經(jīng)網(wǎng)絡(luò)

\n


\n

6.4.1ART網(wǎng)絡(luò)

\n


\n

6.4.2Hopfield網(wǎng)絡(luò)

\n


\n

6.4.3Boltzmann機(jī)

\n


\n

參考文獻(xiàn)

\n


\n

第7章自適應(yīng)動(dòng)態(tài)規(guī)劃

\n


\n

7.1問題描述

\n


\n

7.2自適應(yīng)動(dòng)態(tài)規(guī)劃的原理

\n


\n

7.3自適應(yīng)動(dòng)態(tài)規(guī)劃的分類

\n


\n

7.3.1啟發(fā)式動(dòng)態(tài)規(guī)劃

\n


\n

7.3.2二次啟發(fā)式規(guī)劃

\n


\n

7.3.3執(zhí)行依賴啟發(fā)式動(dòng)態(tài)規(guī)劃

\n


\n

7.3.4執(zhí)行依賴二次啟發(fā)式規(guī)劃

\n


\n


\n

7.4基于執(zhí)行依賴的自適應(yīng)動(dòng)態(tài)規(guī)劃方法

\n


\n

7.4.1問題描述

\n


\n

7.4.2基于執(zhí)行依賴的自適應(yīng)動(dòng)態(tài)規(guī)劃方法

\n


\n

參考文獻(xiàn)

\n


\n

第8章策略迭代學(xué)習(xí)方法

\n


\n

8.1啟發(fā)式學(xué)習(xí)原理

\n


\n


\n

8.2離散時(shí)間策略迭代自適應(yīng)動(dòng)態(tài)規(guī)劃

\n


\n

8.2.1策略迭代算法的推導(dǎo)

\n


\n

8.2.2策略迭代算法的性質(zhì)

\n


\n

8.2.3初始容許控制律的獲得

\n


\n

8.2.4仿真實(shí)驗(yàn)

\n


\n

8.3連續(xù)時(shí)間策略迭代自適應(yīng)動(dòng)態(tài)規(guī)劃

\n


\n

8.3.1連續(xù)時(shí)間策略迭代算法

\n


\n

8.3.2連續(xù)時(shí)間策略迭代自適應(yīng)動(dòng)態(tài)規(guī)劃的性能分析

\n


\n


\n

參考文獻(xiàn)

\n


\n

第9章值迭代學(xué)習(xí)方法

\n


\n

9.1值迭代學(xué)習(xí)原理

\n


\n


\n

9.2離散時(shí)間值迭代自適應(yīng)動(dòng)態(tài)規(guī)劃

\n


\n

9.2.1離散時(shí)間非線性系統(tǒng)的Bellman方程解

\n


\n


\n

9.2.2廣義值迭代自適應(yīng)動(dòng)態(tài)規(guī)劃

\n


\n


\n

9.3連續(xù)時(shí)間值迭代自適應(yīng)動(dòng)態(tài)規(guī)劃

\n


\n

9.3.1問題描述

\n


\n

9.3.2主要結(jié)果

\n


\n


\n

參考文獻(xiàn)

\n


\n

第10章Q學(xué)習(xí)方法

\n


\n

10.1無模型強(qiáng)化學(xué)習(xí)

\n


\n

10.2Q學(xué)習(xí)原理

\n


\n

10.3離散時(shí)間確定性Q學(xué)習(xí)

\n


\n

10.3.1問題描述

\n


\n

10.3.2離散時(shí)間確定性Q學(xué)習(xí)算法的性質(zhì)

\n


\n

10.3.3離散時(shí)間確定性Q學(xué)習(xí)算法的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)

\n


\n

10.3.4仿真實(shí)驗(yàn)

\n


\n

10.4Q學(xué)習(xí)進(jìn)展

\n


\n


\n

參考文獻(xiàn)

\n


\n

第11章脫策學(xué)習(xí)

\n


\n

11.1脫策學(xué)習(xí)的興盛

\n


\n

11.2脫策學(xué)習(xí)的基本思想

\n


\n

11.2.1問題描述

\n


\n

11.2.2相關(guān)研究工作

\n


\n

11.3脫策學(xué)習(xí)過程

\n


\n

11.3.1脫策強(qiáng)化學(xué)習(xí)

\n


\n

11.3.2基于神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)

\n


\n

11.4脫策學(xué)習(xí)收斂性分析

\n


\n

11.5基于脫策強(qiáng)化學(xué)習(xí)的線性H∞控制

\n


\n

11.6仿真實(shí)驗(yàn)

\n


\n


\n

參考文獻(xiàn)

\n


\n

第12章深度強(qiáng)化學(xué)習(xí)

\n


\n

12.1深度學(xué)習(xí)基本概念

\n


\n

12.1.1深度學(xué)習(xí)的起源

\n


\n

12.1.2深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)

\n


\n

12.1.3深度學(xué)習(xí)的運(yùn)用環(huán)境

\n


\n

12.2深度神經(jīng)網(wǎng)絡(luò)

\n


\n

12.2.1深度神經(jīng)網(wǎng)絡(luò)溯源

\n


\n

12.2.2梯度下降法

\n


\n

12.2.3反向傳播

\n


\n

12.2.4動(dòng)量模型

\n


\n

12.2.5學(xué)習(xí)律

\n


\n

12.3卷積神經(jīng)網(wǎng)絡(luò)

\n


\n

12.3.1卷積神經(jīng)網(wǎng)絡(luò)介紹

\n


\n

12.3.2卷積層

\n


\n

12.3.3采樣層

\n


\n

12.3.4分類層

\n


\n

12.3.5經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

\n


\n


\n

12.4循環(huán)神經(jīng)網(wǎng)絡(luò)

\n


\n

12.4.1循環(huán)神經(jīng)網(wǎng)絡(luò)介紹

\n


\n

12.4.2長(zhǎng)短期記憶模型

\n


\n

12.5生成對(duì)抗網(wǎng)絡(luò)

\n


\n

12.6深度強(qiáng)化學(xué)習(xí)基本理論

\n


\n

12.6.1Q函數(shù)

\n


\n

12.6.2策略

\n


\n

12.6.3效用值

\n


\n

12.6.4模型

\n


\n

12.6.5規(guī)劃

\n


\n


\n

12.7深度強(qiáng)化學(xué)習(xí)實(shí)際應(yīng)用

\n


\n

12.7.1游戲

\n


\n

12.7.2機(jī)器人與控制

\n


\n

12.7.3自然語言處理

\n


\n

12.7.4計(jì)算機(jī)視覺

\n


\n


\n

12.8未來待解決的問題

\n


\n

12.8.1采樣效率低下

\n


\n

12.8.2難以尋找合適的效用函數(shù)

\n


\n

12.8.3局部最優(yōu)陷阱

\n


\n

12.8.4過擬合問題

\n


\n

12.8.5復(fù)現(xiàn)難題

\n


\n

12.8.6適用場(chǎng)景與未來思考

\n


\n


\n

參考文獻(xiàn)

\n


\n

第13章強(qiáng)化學(xué)習(xí)展望: 平行強(qiáng)化學(xué)習(xí)

\n


\n

13.1自適應(yīng)動(dòng)態(tài)規(guī)劃與深度強(qiáng)化學(xué)習(xí)

\n


\n

13.2平行控制理論的基本思想

\n


\n

13.3平行動(dòng)態(tài)規(guī)劃方法

\n


\n

參考文獻(xiàn)

\n


\n


\n


本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)