注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)人工智能深度強化學(xué)習(xí):基礎(chǔ)、研究與應(yīng)用

深度強化學(xué)習(xí):基礎(chǔ)、研究與應(yīng)用

深度強化學(xué)習(xí):基礎(chǔ)、研究與應(yīng)用

定 價:¥129.00

作 者: 董豪 等 著
出版社: 電子工業(yè)出版社
叢編項:
標(biāo) 簽: 暫缺

ISBN: 9787121411885 出版時間: 2021-06-01 包裝: 平裝
開本: 16開 頁數(shù): 520 字?jǐn)?shù):  

內(nèi)容簡介

  深度強化學(xué)習(xí)結(jié)合深度學(xué)習(xí)與強化學(xué)習(xí)算法各自的優(yōu)勢解決復(fù)雜的決策任務(wù)。得益于 DeepMind AlphaGo 和 OpenAI Five 成功的案例,深度強化學(xué)習(xí)受到大量的關(guān)注,相關(guān)技術(shù)廣泛應(yīng)用于不同的領(lǐng)域。本書分為三大部分,覆蓋深度強化學(xué)習(xí)的全部內(nèi)容。第一部分介紹深度學(xué)習(xí)和強化學(xué)習(xí)的入門知識、一些非?;A(chǔ)的深度強化學(xué)習(xí)算法及其實現(xiàn)細(xì)節(jié),包括第 1~6 章。第二部分是一些精選的深度強化學(xué)習(xí)研究題目,這些內(nèi)容對準(zhǔn)備開展深度強化學(xué)習(xí)研究的讀者非常有用,包括第 7~12 章。第三部分提供了豐富的應(yīng)用案例,包括 AlphaZero、讓機器人學(xué)習(xí)跑步等,包括第 13~17 章。本書是為計算機科學(xué)專業(yè)背景、希望從零開始學(xué)習(xí)深度強化學(xué)習(xí)并開展研究課題和實踐項目的學(xué)生準(zhǔn)備的。本書也適合沒有很強的機器學(xué)習(xí)背景、但是希望快速學(xué)習(xí)深度強化學(xué)習(xí)并將其應(yīng)用到具體產(chǎn)品中的軟件工程師閱讀。

作者簡介

  董 豪北京大學(xué)計算機系前沿計算研究中心助理教授、深圳鵬城實驗室雙聘成員。于 2019 年秋獲得英國帝國理工學(xué)院博士學(xué)位。研究方向主要涉及計算機視覺和生成模型,目的是降低學(xué)習(xí)智能系統(tǒng)所需要的數(shù)據(jù)。致力于推廣人工智能技術(shù),是深度學(xué)習(xí)開源框架 TensorLayer 的創(chuàng)始人,此框架獲得 ACM MM 2017 年度最佳開源軟件獎。在英國帝國理工學(xué)院和英國中央蘭開夏大學(xué)獲得一等研究生和一等本科學(xué)位。丁子涵 英國帝國理工學(xué)院碩士。獲普林斯頓大學(xué)博士生全額獎學(xué)金,曾在加拿大 Borealis AI、騰訊 Robotics X 實驗室有過工作經(jīng)歷。本科就讀于中國科學(xué)技術(shù)大學(xué),獲物理和計算機雙學(xué)位。研究方向主要涉及強化學(xué)習(xí)、機器人控制、計算機視覺等。在 ICRA、NeurIPS、AAAI、IJCAI、Physical Review 等頂級期刊與會議發(fā)表多篇論文,是 TensorLayer-RLzoo、TensorLet 和 Arena 開源項目的貢獻者。仉尚航 加州大學(xué)伯克利分校,BAIR 實驗室(Berkeley AI Research Lab)博士后研究員。于 2018年獲得卡內(nèi)基??梅隆大學(xué)博士學(xué)位。研究方向主要涉及深度學(xué)習(xí)、計算機視覺及強化學(xué)習(xí)。在NeurIPS、CVPR、ICCV、TNNLS、AAAI、IJCAI 等人工智能頂級期刊和會議發(fā)表多篇論文。目前主要從事 Human-inspired sample-efficient learning 理論與算法研究,包括 low-shot learning、domain adaptation、self learning 等。獲得 AAAI 2021 Best Paper Award, 美國 2018 Rising Stars in EECS,及Adobe Collaboration Fund、Qualcomm Innovation Fellowship Finalist Award 等獎勵。袁 航 英國牛津大學(xué)計算機科學(xué)博士在讀、李嘉誠獎學(xué)金獲得者,主攻人工智能安全和深度學(xué)習(xí)在健康醫(yī)療中的運用。曾在歐美各大高校和研究機構(gòu)研習(xí),如帝國理工學(xué)院、馬克斯普朗克研究所、瑞士聯(lián)邦理工和卡內(nèi)基??梅隆大學(xué)。張鴻銘 中國科學(xué)院自動化研究所算法工程師。于 2018 年獲得北京大學(xué)碩士研究生學(xué)位。本科就讀于北京師范大學(xué),獲理學(xué)學(xué)士學(xué)位。研究方向涉及統(tǒng)計機器學(xué)習(xí)、強化學(xué)習(xí)和啟發(fā)式搜索。張敬卿 英國帝國理工學(xué)院計算機系博士生,師從帝國理工學(xué)院數(shù)據(jù)科學(xué)院院長郭毅可院士。主要研究方向為深度學(xué)習(xí)、機器學(xué)習(xí)、文本挖掘、數(shù)據(jù)挖掘及其應(yīng)用。曾獲得中國國家獎學(xué)金。2016年于清華大學(xué)計算機科學(xué)與技術(shù)系獲得學(xué)士學(xué)位,2017 年于帝國理工學(xué)院計算機系獲得一等研究性碩士學(xué)位。黃彥華 就職于小紅書,負(fù)責(zé)大規(guī)模機器學(xué)習(xí)及強化學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用。2016 年在華東師范大學(xué)數(shù)學(xué)系獲得理學(xué)學(xué)士學(xué)位。曾貢獻過開源項目 PyTorch、TensorFlow 和 Ray。余天洋 啟元世界算法工程師,負(fù)責(zé)強化學(xué)習(xí)在博弈場景中的應(yīng)用。碩士畢業(yè)于南昌大學(xué),是TensorLayer-RLzoo 開源項目的貢獻者。張華清 谷歌公司算法和機器學(xué)習(xí)工程師,側(cè)重于多智能體強化學(xué)習(xí)和多層次結(jié)構(gòu)博弈論方向研究,于華中科技大學(xué)獲得學(xué)士學(xué)位,后于 2017 年獲得休斯敦大學(xué)博士學(xué)位。黃銳桐 Borealis AI (加拿大皇家銀行研究院)團隊主管。于 2017 年獲得阿爾伯塔大學(xué)統(tǒng)計機器學(xué)習(xí)博士學(xué)位。本科就讀于中國科學(xué)技術(shù)大學(xué)數(shù)學(xué)系,后于滑鐵盧大學(xué)獲得計算機碩士學(xué)位。研究方向主要涉及在線學(xué)習(xí)、優(yōu)化、對抗學(xué)習(xí)和強化學(xué)習(xí)。廖培元 目前本科就讀于卡內(nèi)基??梅隆大學(xué)計算機科學(xué)學(xué)院。研究方向主要涉及表示學(xué)習(xí)和多模態(tài)機器學(xué)習(xí)。曾貢獻過開源項目 mmdetection 和 PyTorch Cluster,在 Kaggle 數(shù)據(jù)科學(xué)社區(qū)曾獲Competitions Grandmaster 稱號,**排名全球前 25 位。

圖書目錄

基礎(chǔ)部分 1 第 1 章 深度學(xué)習(xí)入門 2
1.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 感知器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 多層感知器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 激活函數(shù) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5 損失函數(shù) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6 優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6.1 梯度下降和誤差的反向傳播 . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6.2 隨機梯度下降和自適應(yīng)學(xué)習(xí)率 . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.6.3 超參數(shù)篩選 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7 正則化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7.1 過擬合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7.2 權(quán)重衰減 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7.3 Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.7.4 批標(biāo)準(zhǔn)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.7.5 其他緩和過擬合的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.8 卷積神經(jīng)網(wǎng)絡(luò) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.9 循環(huán)神經(jīng)網(wǎng)絡(luò) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.10 深度學(xué)習(xí)的實現(xiàn)樣例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.10.1 張量和梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.10.2 定義模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.10.3 自定義層 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.10.4 多層感知器:MNIST 數(shù)據(jù)集上的圖像分類 . . . . . . . . . . . . . . . . . . . 33
1.10.5 卷積神經(jīng)網(wǎng)絡(luò):CIFAR-10 數(shù)據(jù)集上的圖像分類 . . . . . . . . . . . . . . . . 35
1.10.6 序列到序列模型:聊天機器人 . . . . . . . . . . . . . . . . . . . . . . . . . . 36
第 2 章 強化學(xué)習(xí)入門 43
2.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.2 在線預(yù)測和在線學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.2.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.2.2 隨機多臂賭博機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.2.3 對抗多臂賭博機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.2.4 上下文賭博機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.3 馬爾可夫過程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.3.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.3.2 馬爾可夫獎勵過程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.3.3 馬爾可夫決策過程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.3.4 貝爾曼方程和最優(yōu)性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.3.5 其他重要概念 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.4 動態(tài)規(guī)劃 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.4.1 策略迭代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.4.2 價值迭代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2.4.3 其他 DPs:異步 DP、近似 DP 和實時 DP . . . . . . . . . . . . . . . . . . . 68
2.5 蒙特卡羅 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.5.1 蒙特卡羅預(yù)測 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.5.2 蒙特卡羅控制 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
2.5.3 增量蒙特卡羅 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
2.6 時間差分學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
2.6.1 時間差分預(yù)測 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
2.6.2 Sarsa:在線策略 TD 控制 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
2.6.3 Q-Learning:離線策略 TD 控制 . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.7 策略優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.7.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.7.2 基于價值的優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
2.7.3 基于策略的優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
2.7.4 結(jié)合基于策略和基于價值的方法 . . . . . . . . . . . . . . . . . . . . . . . . 105
第 3 章 強化學(xué)習(xí)算法分類 110
3.1 基于模型的方法和無模型的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3.2 基于價值的方法和基于策略的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
3.3 蒙特卡羅方法和時間差分方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
3.4 在線策略方法和離線策略方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
第 4 章 深度 Q 網(wǎng)絡(luò) 119
4.1 Sarsa 和 Q-Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
4.2 為什么使用深度學(xué)習(xí): 價值函數(shù)逼近 . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
4.3 DQN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
4.4 Double DQN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4.5 Dueling DQN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
4.6 優(yōu)先經(jīng)驗回放 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
4.7 其他改進內(nèi)容:多步學(xué)習(xí)、噪聲網(wǎng)絡(luò)和值分布強化學(xué)習(xí) . . . . . . . . . . . . . . . 128
4.8 DQN 代碼實例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
第 5 章 策略梯度 146
5.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.2 REINFORCE:初版策略梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
5.3 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.4 生成對抗網(wǎng)絡(luò)和 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
5.5 同步優(yōu)勢 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
5.6 異步優(yōu)勢 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
5.7 信賴域策略優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
5.8 近端策略優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
5.9 使用 Kronecker 因子化信賴域的 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . 159
5.10 策略梯度代碼例子 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
5.10.1 相關(guān)的 Gym 環(huán)境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
5.10.2 REINFORCE: Atari Pong 和 CartPole-V0 . . . . . . . . . . . . . . . . . . . . . 165
5.10.3 AC: CartPole-V0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
5.10.4 A3C: BipedalWalker-v2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
5.10.5 TRPO: Pendulum-V0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
5.10.6 PPO: Pendulum-V0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
第 6 章 深度 Q 網(wǎng)絡(luò)和 Actor-Critic 的結(jié)合 200
6.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
6.2 深度確定性策略梯度算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
6.3 孿生延遲 DDPG 算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
6.4 柔性 Actor-Critic 算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
6.4.1 柔性策略迭代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
6.4.2 SAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
6.5 代碼例子 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
6.5.1 相關(guān)的 Gym 環(huán)境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
6.5.2 DDPG: Pendulum-V0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
6.5.3 TD3: Pendulum-V0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
6.5.4 SAC: Pendulum-v0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
研究部分 236
第 7 章 深度強化學(xué)習(xí)的挑戰(zhàn) 237
7.1 樣本效率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
7.2 學(xué)習(xí)穩(wěn)定性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
7.3 災(zāi)難性遺忘 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
7.4 探索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
7.5 元學(xué)習(xí)和表征學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
7.6 多智能體強化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
7.7 模擬到現(xiàn)實 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
7.8 大規(guī)模強化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
7.9 其他挑戰(zhàn) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
第 8 章 模仿學(xué)習(xí) 258
8.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
8.2 行為克隆方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
8.2.1 行為克隆方法的挑戰(zhàn) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
8.2.2 數(shù)據(jù)集聚合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
8.2.3 Variational Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
8.2.4 行為克隆的其他方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
8.3 逆向強化學(xué)習(xí)方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
8.3.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
8.3.2 逆向強化學(xué)習(xí)方法的挑戰(zhàn) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
8.3.3 生成對抗模仿學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
8.3.4 生成對抗網(wǎng)絡(luò)指導(dǎo)性代價學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . 266
8.3.5 對抗性逆向強化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268
8.4 從觀察量進行模仿學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
8.4.1 基于模型方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
8.4.2 無模型方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272
8.4.3 從觀察量模仿學(xué)習(xí)的挑戰(zhàn) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
8.5 概率性方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
8.6 模仿學(xué)習(xí)作為強化學(xué)習(xí)的初始化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
8.7 強化學(xué)習(xí)中利用示范數(shù)據(jù)的其他方法 . . . . . . . . . . . . . . . . . . . . . . . . . . 280
8.7.1 將示范數(shù)據(jù)導(dǎo)入經(jīng)驗回放緩存 . . . . . . . . . . . . . . . . . . . . . . . . . . 280
8.7.2 標(biāo)準(zhǔn)化 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
8.7.3 用示范數(shù)據(jù)進行獎勵塑形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
8.8 總結(jié) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
第 9 章 集成學(xué)習(xí)與規(guī)劃 289
9.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
9.2 基于模型的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
9.3 集成模式架構(gòu) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
9.4 基于模擬的搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
9.4.1 樸素蒙特卡羅搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
9.4.2 蒙特卡羅樹搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
9.4.3 時間差分搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
第 10 章 分層強化學(xué)習(xí) 298
10.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298
10.2 選項框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299
10.2.1 戰(zhàn)略專注作家 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
10.2.2 選項-批判者結(jié)構(gòu) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
10.3 封建制強化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
10.3.1 封建制網(wǎng)絡(luò) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
10.3.2 離線策略修正 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
10.4 其他工作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
第 11 章 多智能體強化學(xué)習(xí) 315
11.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
11.2 優(yōu)化和均衡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316
11.2.1 納什均衡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
11.2.2 關(guān)聯(lián)性均衡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
11.2.3 斯塔克爾伯格博弈 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
11.3 競爭與合作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
11.3.1 合作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
11.3.2 零和博弈 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
11.3.3 同時決策下的競爭 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
11.3.4 順序決策下的競爭 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323
11.4 博弈分析架構(gòu) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324
第 12 章 并行計算 326
12.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326
12.2 同步和異步 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327
12.3 并行計算網(wǎng)絡(luò) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329
12.4 分布式強化學(xué)習(xí)算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330
12.4.1 異步優(yōu)勢 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330
12.4.2 GPU/CPU 混合式異步優(yōu)勢 Actor-Critic . . . . . . . . . . . . . . . . . . . . . 332
12.4.3 分布式近端策略優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
12.4.4 重要性加權(quán)的行動者-學(xué)習(xí)者結(jié)構(gòu)和可擴展高效深度強化學(xué)習(xí) . . . . . . . . 336
12.4.5 Ape-X、回溯-行動者和分布式深度循環(huán)回放 Q 網(wǎng)絡(luò) . . . . . . . . . . . . . 338
12.4.6 Gorila . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
12.5 分布式計算架構(gòu) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
應(yīng)用部分 343
第 13 章 Learning to Run 344
13.1 NeurIPS 2017 挑戰(zhàn):Learning to Run . . . . . . . . . . . . . . . . . . . . . . . . . . . 344
13.1.1 環(huán)境介紹 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344
13.1.2 安裝 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
13.2 訓(xùn)練智能體 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
13.2.1 并行訓(xùn)練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348
13.2.2 小技巧 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
13.2.3 學(xué)習(xí)結(jié)果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352
第 14 章 魯棒的圖像增強 354
14.1 圖像增強 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354
14.2 用于魯棒處理的強化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
第 15 章 AlphaZero 366
15.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366
15.2 組合博弈 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
15.3 蒙特卡羅樹搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
15.4 AlphaZero:棋類游戲的通用算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
第 16 章 模擬環(huán)境中機器人學(xué)習(xí) 388
16.1 機器人模擬 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
16.2 強化學(xué)習(xí)用于機器人任務(wù) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
16.2.1 并行訓(xùn)練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407
16.2.2 學(xué)習(xí)效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407
16.2.3 域隨機化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408
16.2.4 機器人學(xué)習(xí)基準(zhǔn) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409
16.2.5 其他模擬器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409
第 17 章 Arena:多智能體強化學(xué)習(xí)平臺 412
17.1 安裝 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413
17.2 用 Arena 開發(fā)游戲 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413
17.2.1 簡單的單玩家游戲 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
17.2.2 簡單的使用獎勵機制的雙玩家游戲 . . . . . . . . . . . . . . . . . . . . . . . 416
17.2.3 高級設(shè)置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
17.2.4 導(dǎo)出二進制游戲 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
17.3 MARL 訓(xùn)練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427
17.3.1 設(shè)置 X-Server . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427
17.3.2 進行訓(xùn)練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429
17.3.3 可視化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431
17.3.4 致謝 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431
第 18 章 深度強化學(xué)習(xí)應(yīng)用實踐技巧 433
18.1 概覽:如何應(yīng)用深度強化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433
18.2 實現(xiàn)階段 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434
18.3 訓(xùn)練和調(diào)試階段 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440
總結(jié)部分 445
附錄 A 算法總結(jié)表 446
附錄 B 算法速查表 451
B.1 深度學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451
B.1.1 隨機梯度下降 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451
B.1.2 Adam 優(yōu)化器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452
B.2 強化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452
B.2.1 賭博機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452
B.2.2 動態(tài)規(guī)劃 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453
B.2.3 蒙特卡羅 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454
B.3 深度強化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458
B.4 高等深度強化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
B.4.1 模仿學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
B.4.2 基于模型的強化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 468
B.4.3 分層強化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470
B.4.4 多智能體強化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471
B.4.5 并行計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472
附錄 C 中英文對照表 476

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號