注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡軟件與程序設計Python強化學習實戰(zhàn):使用OpenAI Gym、TensorFlow和Keras

Python強化學習實戰(zhàn):使用OpenAI Gym、TensorFlow和Keras

Python強化學習實戰(zhàn):使用OpenAI Gym、TensorFlow和Keras

定 價:¥49.80

作 者: [美] 托威赫·貝索洛 著,敖富江,杜靜,張民壘 譯
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

ISBN: 9787302570097 出版時間: 2021-02-01 包裝: 平裝
開本: 32開 頁數(shù): 127 字數(shù):  

內(nèi)容簡介

  《Python強化學習實戰(zhàn):使用OpenAI Gym、TensorFlow和Keras》帶領讀者深入強化學習算法的世界,并使用Python在不同用例中應用它們。其中涵蓋了一些重要主題,例如策略梯度算法和Q學習算法,并使用了TensorFlow、Keras和OpenAIGym框架?!禤ython強化學習實戰(zhàn):使用OpenAI Gym、TensorFlow和Keras》介紹了強化學習(RL)算法背后的理論及用于實現(xiàn)它們的代碼。讀者將依次學習OpenAIGym的各類功能,從應用標準庫,到創(chuàng)建自己的環(huán)境,再到掌握如何構建強化學習問題,從而能夠研究、開發(fā)和部署基于強化學習的解決方案。

作者簡介

  Taweh Beysolow II是一位數(shù)據(jù)科學家和作家,目前居住在美國。他擁有美國圣約翰大學的經(jīng)濟學學士學位和福特漢姆大學的應用統(tǒng)計學理學碩士學位。在成功退出與他人共同創(chuàng)立的初創(chuàng)公司后,他現(xiàn)在擔任總部位于舊金山的私人股本公司Industry Capital的董事,在那里領導加密貨幣和區(qū)塊鏈平臺。

圖書目錄

目    錄




第1章  強化學習導論  1

1.1  強化學習的發(fā)展史  2

1.2  MDP及其與強化學習的關系  3

1.3  強化學習算法和強化學習框架  5

1.4  Q學習  8

1.5  強化學習的應用  9

1.5.1  經(jīng)典控制問題  9

1.5.2  《超級馬里奧兄弟》游戲  10

1.5.3  《毀滅戰(zhàn)士》游戲  11

1.5.4  基于強化學習的做市策略  12

1.5.5  《刺猬索尼克》游戲  12

1.6  本章小結  13

第2章  強化學習算法  15

2.1  OpenAI Gym  15

2.2  基于策略的學習  16

2.3  策略梯度的數(shù)學解釋  17

2.4  基于梯度上升的策略優(yōu)化  19

2.5  使用普通策略梯度法求解車桿問題  20

2.6  什么是折扣獎勵,為什么要使用它們  23

2.7  策略梯度的不足  28

2.8  近端策略優(yōu)化(PPO)和Actor-Critic模型  29

2.9  實現(xiàn)PPO并求解《超級馬里奧兄弟》  30

2.9.1  《超級馬里奧兄弟》概述  30

2.9.2  安裝環(huán)境軟件包  31

2.9.3  資源庫中的代碼結構  32

2.9.4  模型架構  32

2.10  應對難度更大的強化學習挑戰(zhàn)  37

2.11  容器化強化學習實驗  39

2.12  實驗結果  41

2.13  本章小結  41

第3章  強化學習算法:Q學習及其變種  43

3.1  Q學習  43

3.2  時序差分(TD)學習  45

3.3  epsilon-greedy算法  46

3.4  利用Q學習求解冰湖問題  47

3.5  深度Q學習  50

3.6  利用深度Q學習玩《毀滅戰(zhàn)士》游戲  51

3.7  訓練與性能  56

3.8  深度Q學習的局限性  57

3.9  雙Q學習和雙深度Q網(wǎng)絡  58

3.10  本章小結  59

第4章  基于強化學習的做市策略  61

4.1  什么是做市  61

4.2  Trading Gym  63

4.3  為什么強化學習適用于做市  64

4.4  使用Trading Gym合成訂單簿數(shù)據(jù)  66

4.5  使用Trading Gym生成訂單簿數(shù)據(jù)  67

4.6  實驗設計  68

4.6.1  強化學習方法1:策略梯度  71

4.6.2  強化學習方法2:深度Q網(wǎng)絡  71

4.7  結果和討論  73

4.8  本章小結  74

第5章  自定義OpenAI強化學習環(huán)境  75

5.1  《刺猬索尼克》游戲概述  75

5.2  下載該游戲  76

5.3  編寫該環(huán)境的代碼  78

5.4  A3C Actor-Critic  82

5.5  本章小結  88

附錄A  源代碼  91


本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號