注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)人工智能強(qiáng)化學(xué)習(xí):前沿算法與應(yīng)用

強(qiáng)化學(xué)習(xí):前沿算法與應(yīng)用

強(qiáng)化學(xué)習(xí):前沿算法與應(yīng)用

定 價(jià):¥109.00

作 者: 白辰甲,趙英男,郝建業(yè),劉鵬,王震
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787111724780 出版時(shí)間: 2023-06-01 包裝: 平裝
開本: 16開 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的重要分支,是實(shí)現(xiàn)通用人工智能的重要途徑。本書介紹了強(qiáng)化學(xué)習(xí)在算法層面的快速發(fā)展,包括值函數(shù)、策略梯度、值分布建模等基礎(chǔ)算法,以及為了提升樣本效率產(chǎn)生的基于模型學(xué)習(xí)、探索與利用、多目標(biāo)學(xué)習(xí)、層次化學(xué)習(xí)、技能學(xué)習(xí)等算法,以及一些新興領(lǐng)域,包括離線學(xué)習(xí)、表示學(xué)習(xí)、元學(xué)習(xí)等,旨在提升數(shù)據(jù)高效性和策略的泛化能力的算法,還介紹了應(yīng)用領(lǐng)域中強(qiáng)化學(xué)習(xí)在智能控制、機(jī)器視覺、語言處理、醫(yī)療、推薦、金融等方面的相關(guān)知識(shí)。本書深入淺出、結(jié)構(gòu)清晰、重點(diǎn)突出,系統(tǒng)地闡述了強(qiáng)化學(xué)習(xí)的前沿算法和應(yīng)用,適合從事人工智能、機(jī)器學(xué)習(xí)、優(yōu)化控制、機(jī)器人、游戲開發(fā)等工作的專業(yè)技術(shù)人員閱讀,還可作為計(jì)算機(jī)、人工智能、智能科學(xué)相關(guān)專業(yè)的研究生和高年級(jí)本科生的教材。

作者簡(jiǎn)介

  白辰甲 上海人工智能實(shí)驗(yàn)室青年研究員,博士畢業(yè)于哈爾濱工業(yè)大學(xué)計(jì)算學(xué)部,曾在加拿大多倫多大學(xué)聯(lián)合培養(yǎng),2022年獲哈工大優(yōu)秀博士論文獎(jiǎng)。在高水平國(guó)際會(huì)議和期刊上發(fā)表論文20余篇,獲評(píng)機(jī)器學(xué)習(xí)頂會(huì)ICML 2021、ICLR 2022、NeurIPS 2022亮點(diǎn)論文。研究方向包括強(qiáng)化學(xué)習(xí)、博弈智能和具身智能。 趙英男 博士畢業(yè)于哈爾濱工業(yè)大學(xué)計(jì)算學(xué)部,曾在加拿大阿爾伯塔大學(xué)進(jìn)行聯(lián)合培養(yǎng),主要研究方向?yàn)樯疃葟?qiáng)化學(xué)習(xí)、表征學(xué)習(xí)等,在國(guó)際會(huì)議和期刊上發(fā)表多篇學(xué)術(shù)論文。 郝建業(yè) 天津大學(xué)智能與計(jì)算學(xué)部副教授,獲哈爾濱工業(yè)大學(xué)學(xué)士學(xué)位,香港中文大學(xué)博士學(xué)位,曾任MIT計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室博士后研究員。研究方向?yàn)樯疃葟?qiáng)化學(xué)習(xí)和多智能體系統(tǒng),近年在NeurIPS、ICML、ICLR、AAAI、IJCAI等人工智能領(lǐng)域知名會(huì)議和IEEE匯刊發(fā)表論文80余篇,出版專著2部。 劉鵬 哈爾濱工業(yè)大學(xué)教授,博士生導(dǎo)師,模式識(shí)別與智能系統(tǒng)研究中心主任。主要研究方向?yàn)閳D像處理、模式識(shí)別、機(jī)器學(xué)習(xí)。發(fā)表學(xué)術(shù)論文50余篇,獲發(fā)明專利10余項(xiàng),獲黑龍江省科技進(jìn)步一等獎(jiǎng)1項(xiàng)。 王震 西北工業(yè)大學(xué)教授,網(wǎng)絡(luò)空間安全學(xué)院黨委書記,國(guó)家保密學(xué)院常務(wù)副院長(zhǎng),Elected Member of Academia Europaea (EA), European Academy of Sciences and Arts (EASA),AAIA Fellow, 全球高被引科學(xué)家,國(guó)家杰青,國(guó)防創(chuàng)新團(tuán)隊(duì)負(fù)責(zé)人。圍繞博弈智能,人工智能基礎(chǔ)理論,網(wǎng)絡(luò)空間智能對(duì)抗,在Nature Communications、PNAS、Science Advance、AAAI、NeurIPS、ICML、ICLR等發(fā)表系列成果,WoS引用2萬余次,編制完成行標(biāo)5項(xiàng)。獲科學(xué)探索獎(jiǎng),中國(guó)青年五四獎(jiǎng)?wù)?,教育部、陜西省、學(xué)會(huì)科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng)等多個(gè)獎(jiǎng)項(xiàng)。

圖書目錄

序言
前言
第1章 強(qiáng)化學(xué)習(xí)簡(jiǎn)介/
1.1從監(jiān)督學(xué)習(xí)到強(qiáng)化學(xué)習(xí)/
1.2強(qiáng)化學(xué)習(xí)的發(fā)展歷史/
1.3強(qiáng)化學(xué)習(xí)的研究范疇/
1.4強(qiáng)化學(xué)習(xí)的應(yīng)用領(lǐng)域/
第2章 強(qiáng)化學(xué)習(xí)基礎(chǔ)知識(shí)/
2.1強(qiáng)化學(xué)習(xí)的核心概念/
2.2馬爾可夫性和決策過程/
2.3值函數(shù)和策略學(xué)習(xí)/
第3章 基于值函數(shù)的強(qiáng)化學(xué)習(xí)算法/
3.1深度Q學(xué)習(xí)的基本理論/
3.1.1深度Q網(wǎng)絡(luò)/
3.1.2經(jīng)驗(yàn)池/
3.1.3目標(biāo)網(wǎng)絡(luò)/
3.2深度Q學(xué)習(xí)的過估計(jì)/
3.2.1過估計(jì)的產(chǎn)生原因/
3.2.2Double Q-學(xué)習(xí)/
3.3深度Q學(xué)習(xí)的網(wǎng)絡(luò)改進(jìn)和高效采樣/
3.3.1Dueling網(wǎng)絡(luò)/
3.3.2高效采樣/
3.4周期后序迭代Q學(xué)習(xí)/
3.5Q學(xué)習(xí)用于連續(xù)動(dòng)作空間/
3.5.1基于并行結(jié)構(gòu)的 Q學(xué)習(xí)/
3.5.2基于順序結(jié)構(gòu)的Q學(xué)習(xí)/
3.6實(shí)例:使用值函數(shù)學(xué)習(xí)的Atari游戲/
3.6.1環(huán)境預(yù)處理/
3.6.2Q網(wǎng)絡(luò)的實(shí)現(xiàn)/
3.6.3Q學(xué)習(xí)的核心步驟/
第4章 策略梯度迭代的強(qiáng)化學(xué)習(xí)算法/
4.1REINFORCE 策略梯度/
4.1.1策略梯度的基本形式/
4.1.2降低策略梯度的方差/
4.2異步策略梯度法/
4.2.1引入優(yōu)勢(shì)函數(shù)/
4.2.2異步策略梯度/
4.3近端策略優(yōu)化法/
4.3.1裁剪的優(yōu)化目標(biāo)/
4.3.2自適應(yīng)的優(yōu)化目標(biāo)/
4.4深度確定性策略梯度/
4.4.1critic學(xué)習(xí)/
4.4.2actor學(xué)習(xí)/
4.4.3拓展1:探索噪聲/
4.4.4拓展2:孿生DDPG/
4.5最大熵策略梯度/
4.5.1熵約束的基本原理/
4.5.2SAC算法/
4.6實(shí)例:使用策略梯度的Mujoco任務(wù)/
4.6.1actor-critic網(wǎng)絡(luò)實(shí)現(xiàn)/
4.6.2核心算法實(shí)現(xiàn)/
第5章 基于模型的強(qiáng)化學(xué)習(xí)方法/
5.1如何使用模型來進(jìn)行強(qiáng)化學(xué)習(xí)/
5.2基于模型預(yù)測(cè)的規(guī)劃/
5.2.1隨機(jī)打靶法/
5.2.2集成概率軌跡采樣法/
5.2.3基于模型和無模型的混合算法/
5.2.4基于想象力的隱式規(guī)劃方法/
5.3黑盒模型的理論框架/
5.3.1隨機(jī)下界優(yōu)化算法/
5.3.2基于模型的策略優(yōu)化算法/
5.4白盒模型的使用/
5.4.1隨機(jī)值梯度算法/
5.4.2模型增強(qiáng)的actor-critic算法/
5.5實(shí)例:AlphaGo圍棋智能體/
5.5.1網(wǎng)絡(luò)結(jié)構(gòu)介紹/
5.5.2蒙特卡羅樹搜索/
5.5.3總體訓(xùn)練流程/
第6章 值分布式強(qiáng)化學(xué)習(xí)算法/
6.1離散分布投影的值分布式算法/
6.2分位數(shù)回歸的值分布式算法/
6.2.1分位數(shù)回歸/
6.2.2Wasserstein距離/
6.2.3QR-DQN算法/
6.2.4單調(diào)的分位數(shù)學(xué)習(xí)算法/
6.3隱式的值分布網(wǎng)絡(luò)/
6.4基于值分布的代價(jià)敏感學(xué)習(xí)/
6.4.1IQN中的代價(jià)敏感學(xué)習(xí)/
6.4.2基于IQN的actor-critic模型的代價(jià)敏感學(xué)習(xí)/
6.5實(shí)例:基于值分布的Q網(wǎng)絡(luò)實(shí)現(xiàn)/
6.5.1IQN模型構(gòu)建/
6.5.2IQN損失函數(shù)/
第7章 強(qiáng)化學(xué)習(xí)中的探索算法/
7.1探索算法的分類/
7.2基于不確定性估計(jì)的探索/
7.2.1參數(shù)化后驗(yàn)的算法思路/
7.2.2重采樣DQN/
7.3進(jìn)行虛擬計(jì)數(shù)的探索/
7.3.1基于圖像生成模型的虛擬計(jì)數(shù)/
7.3.2基于哈希的虛擬計(jì)數(shù)/
7.4根據(jù)環(huán)境模型的探索/
7.4.1特征表示的學(xué)習(xí)/
7.4.2隨機(jī)網(wǎng)絡(luò)蒸餾/
7.4.3Never-Give-Up算法/
7.5實(shí)例:蒙特祖瑪復(fù)仇任務(wù)的探索/
7.5.1RND網(wǎng)絡(luò)結(jié)構(gòu)/
7.5.2RND的訓(xùn)練/
7.5.3RND用于探索/
第8章 多目標(biāo)強(qiáng)化學(xué)習(xí)算法/
8.1以目標(biāo)為條件的價(jià)值函數(shù)/
8.1.1最大熵HER/
8.1.2動(dòng)態(tài)目標(biāo)HER/
8.2監(jiān)督式的多目標(biāo)學(xué)習(xí)/
8.2.1Hindsight模仿學(xué)習(xí)/
8.2.2加權(quán)監(jiān)督式多目標(biāo)學(xué)習(xí)/
8.3推廣的多目標(biāo)學(xué)習(xí)/
8.4實(shí)例:仿真機(jī)械臂的多目標(biāo)抓取/
8.4.1多目標(biāo)實(shí)驗(yàn)環(huán)境/
8.4.2HER的實(shí)現(xiàn)方法/
8.4.3MEP的算法實(shí)現(xiàn)/
第9章 層次化強(qiáng)化學(xué)習(xí)算法/
9.1層次化學(xué)習(xí)的重要性/
9.2基于子目標(biāo)的層次化學(xué)習(xí)/
9.2.1封建網(wǎng)絡(luò)的層次化學(xué)習(xí)/
9.2.2離策略修正的層次化學(xué)習(xí)/
9.2.3虛擬子目標(biāo)的強(qiáng)化學(xué)習(xí)方法/
9.3基于技能的層次化學(xué)習(xí)/
9.3.1使用隨機(jī)網(wǎng)絡(luò)的層次化學(xué)習(xí)/
9.3.2共享分層的元學(xué)習(xí)方法/
9.4基于選項(xiàng)的層次化學(xué)習(xí)/
9.4.1option與半馬爾可夫決策過程/
9.4.2option-critic結(jié)構(gòu)/
9.5實(shí)例:層次化學(xué)習(xí)螞蟻?zhàn)呙詫m任務(wù)/
第10章 基于技能的強(qiáng)化學(xué)習(xí)算法/
10.1技能學(xué)習(xí)的定義/
10.2互信息最大化的技能學(xué)習(xí)算法/
10.2.1多樣性最大化技能學(xué)習(xí)算法/
10.2.2其他基于互信息的技能學(xué)習(xí)方法/
10.3融合環(huán)境模型的技能學(xué)習(xí)算法/
10.4最大化狀態(tài)覆蓋的技能學(xué)習(xí)算法/
10.5實(shí)例:人形機(jī)器人的技能學(xué)習(xí)/
第11章 離線強(qiáng)化學(xué)習(xí)算法/
11.1離線強(qiáng)化學(xué)習(xí)中面臨的困難/
11.2策略約束的離線學(xué)習(xí)/
11.2.1BCQ算法/
11.2.2BRAC算法/
11.2.3TD3-BC算法/
11.3使用保守估計(jì)的離線學(xué)習(xí)/
11.4基于不確定性的離線學(xué)習(xí)/
11.4.1UWAC算法/
11.4.2MOPO算法/
11.4.3PBRL算法/
11.5監(jiān)督式的離線學(xué)習(xí)/
11.5.1DT算法/
11.5.2RVS算法/
11.6實(shí)例:使用離線學(xué)習(xí)的D4RL任務(wù)集/
11.6.1D4RL數(shù)據(jù)集的使用/
11.6.2CQL算法實(shí)現(xiàn)/
11.6.3TD3-BC算法實(shí)現(xiàn)/
第12章 元強(qiáng)化學(xué)習(xí)算法/
12.1元強(qiáng)化學(xué)習(xí)的定義/
12.2基于網(wǎng)絡(luò)模型的元強(qiáng)化學(xué)習(xí)方法/
12.2.1使用循環(huán)神經(jīng)網(wǎng)絡(luò)的元強(qiáng)化學(xué)習(xí)方法/
12.2.2基于時(shí)序卷積和軟注意力機(jī)制的方法/
12.3元梯度學(xué)習(xí)/
12.4元強(qiáng)化學(xué)習(xí)中的探索方法/
12.4.1結(jié)構(gòu)化噪聲探索方法/
12.4.2利用后驗(yàn)采樣進(jìn)行探索/
12.5實(shí)例:元學(xué)習(xí)訓(xùn)練多任務(wù)獵豹智能體/
第13章 高效的強(qiáng)化學(xué)習(xí)表示算法/
13.1為什么要進(jìn)行表示學(xué)習(xí)/
13.2對(duì)比學(xué)習(xí)的特征表示/
13.2.1基本原理和SimCLR算法/
13.2.2MoCo 算法/
13.2.3基于對(duì)比學(xué)習(xí)的 CURL算法/
13.2.4基于對(duì)比學(xué)習(xí)的 ATC算法/
13.2.5基于對(duì)比學(xué)習(xí)的 DIM算法/
13.2.6對(duì)比學(xué)習(xí)和互信息理論/
13.2.7完全基于圖像增廣的方法/
13.3魯棒的特征表示學(xué)習(xí)/
13.3.1互模擬特征/
13.3.2信息瓶頸特征/
13.4使用模型預(yù)測(cè)的表示學(xué)習(xí)/
13.5實(shí)例:魯棒的仿真自動(dòng)駕駛/
第14章 強(qiáng)化學(xué)習(xí)在智能控制中的應(yīng)用/
14.1機(jī)器人控制/
14.1.1機(jī)械臂操作任務(wù)的控制/
14.1.2足式機(jī)器人的運(yùn)動(dòng)控制/
14.1.3多任務(wù)機(jī)器人控制/
14.1.4面臨的挑戰(zhàn)/
14.2電力優(yōu)化控制/
14.2.1電力管理任務(wù)/
14.2.2需求響應(yīng)/
14.3交通指揮優(yōu)化控制/
14.3.1多信號(hào)燈合作控制/
14.3.2大規(guī)模信號(hào)燈控制方法/
14.3.3元強(qiáng)化學(xué)習(xí)信號(hào)燈控制/
第15章 強(qiáng)化學(xué)習(xí)在機(jī)器視覺中的應(yīng)用/
15.1神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索/
15.1.1利用強(qiáng)化學(xué)習(xí)解決NAS/
15.1.2其他前沿方法/
15.2目標(biāo)檢測(cè)和跟蹤中的優(yōu)化/
15.2.1強(qiáng)化學(xué)習(xí)與目標(biāo)檢測(cè)/
15.2.2強(qiáng)化學(xué)習(xí)與實(shí)時(shí)目標(biāo)跟蹤/
15.3視頻分析/
第16章 強(qiáng)化學(xué)習(xí)在語言處理中的應(yīng)用/
16.1知識(shí)圖譜系統(tǒng)/
16.2智能問答系統(tǒng)/
16.2.1事后目標(biāo)回放法/
16.2.2多任務(wù)對(duì)話系統(tǒng)/
16.3機(jī)器翻譯系統(tǒng)/
16.3.1NMT中獎(jiǎng)勵(lì)的計(jì)算/
16.3.2策略梯度方差處理/
第17章 強(qiáng)化學(xué)習(xí)在其他領(lǐng)域中的應(yīng)用/
17.1醫(yī)療健康系統(tǒng)/
17.1.1動(dòng)態(tài)治療方案/
17.1.2重癥監(jiān)護(hù)/
17.1.3自動(dòng)醫(yī)療診斷/
17.2個(gè)性化推薦系統(tǒng)/
17.2.1策略優(yōu)化方法/
17.2.2基于圖的對(duì)話推薦/
17.3股票交易系統(tǒng)/
17.3.1FinRL強(qiáng)化學(xué)習(xí)框架/
17.3.2FinRL訓(xùn)練示例/

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)