注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)工業(yè)技術(shù)建筑科學(xué)建筑設(shè)計(jì)Python強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn):應(yīng)用OpenAI Gym和TensorFlow精通強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)

Python強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn):應(yīng)用OpenAI Gym和TensorFlow精通強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)

Python強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn):應(yīng)用OpenAI Gym和TensorFlow精通強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)

定 價(jià):¥69.00

作 者: (印度)蘇達(dá)?!だS尚迪蘭 著
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買這本書(shū)可以去


ISBN: 9787111612889 出版時(shí)間: 2018-12-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  強(qiáng)化學(xué)習(xí)是一種重要的機(jī)器學(xué)習(xí)方法,在智能體及分析預(yù)測(cè)等領(lǐng)域有許多應(yīng)用?!禤ython強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn):應(yīng)用OpenAI Gym和TensorFlow精通強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)》共13章,主要包括強(qiáng)化學(xué)習(xí)的各種要素,即智能體、環(huán)境、策略和模型以及相應(yīng)平臺(tái)和庫(kù);Anaconda、Docker、OpenAIGym、Universe和TensorFlow等安裝配置;馬爾可夫鏈和馬爾可夫過(guò)程及其與強(qiáng)化學(xué)習(xí)問(wèn)題建模之間的關(guān)系,動(dòng)態(tài)規(guī)劃的基本概念;蒙特卡羅方法以及不同類型的蒙特卡羅預(yù)測(cè)和控制方法;時(shí)間差分學(xué)習(xí)、預(yù)測(cè)、離線/在線策略控制等;多臂賭博機(jī)問(wèn)題以及相關(guān)的各種探索策略方法;深度學(xué)習(xí)的各種基本概念和RNN、LSTM、CNN等神經(jīng)網(wǎng)絡(luò);深度強(qiáng)化學(xué)習(xí)算法DQN,以及雙DQN和對(duì)抗網(wǎng)絡(luò)體系結(jié)構(gòu)等改進(jìn)架構(gòu);DRQN以及DARQN;A3C網(wǎng)絡(luò)的基本工作原理及架構(gòu);策略梯度和優(yōu)化問(wèn)題;*后介紹了強(qiáng)化學(xué)習(xí)的*新進(jìn)展以及未來(lái)發(fā)展。

作者簡(jiǎn)介

  作者簡(jiǎn)介Sudharsan Ravichandiran 是一位數(shù)據(jù)科學(xué)家、研究員、人工智能愛(ài)好者以及 YouTuber(搜索 Sudharsan reinforcement learning),獲得了 Anna 大學(xué)信息技術(shù)學(xué)士學(xué)位。他的研究領(lǐng)域包括深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的實(shí)現(xiàn),其中包括自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)。他曾是一名自由職業(yè)的網(wǎng)頁(yè)開(kāi)發(fā)人員和設(shè)計(jì)師,所設(shè)計(jì)開(kāi)發(fā)的網(wǎng)站屢獲殊榮,同時(shí)也熱衷于開(kāi)源,擅長(zhǎng)解答堆棧溢出問(wèn)題。原書(shū)審稿人簡(jiǎn)介Sujit Pal 是 Elsevier 實(shí)驗(yàn)室的技術(shù)研究總監(jiān), Elsevier 實(shí)驗(yàn)室是 Reed-Elservier 集團(tuán)公司下的一個(gè)先進(jìn)技術(shù)團(tuán)隊(duì),研究領(lǐng)域包括語(yǔ)義檢索、自然語(yǔ)言處理、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。他在 Elsevier 實(shí)驗(yàn)室主要從事搜索質(zhì)量檢測(cè)與改進(jìn)、圖像分類和重復(fù)率檢測(cè)、醫(yī)學(xué)和科學(xué)語(yǔ)料庫(kù)的標(biāo)注與本體開(kāi)發(fā)。他曾與 Antonio Gulli 合作撰寫(xiě)了一本關(guān)于深度學(xué)習(xí)的著作,并在博客 Slamon Run 上撰寫(xiě)了一些科技文章。Suriyadeepan Ramamoorthy 是一名來(lái)自印度 Puducherry 的 AI 研究人員和工程師,主要研究領(lǐng)域是自然語(yǔ)言理解和推理,同時(shí)積極撰寫(xiě)有關(guān)深度學(xué)習(xí)的博客文章。在 SAAMA 技術(shù)中,他將先進(jìn)的深度學(xué)習(xí)技術(shù)應(yīng)用于生物醫(yī)學(xué)文本分析,同時(shí)也是一名積極推動(dòng) FSFTN領(lǐng)域發(fā)展的免費(fèi)軟件宣傳者,另外對(duì)社交網(wǎng)絡(luò)、數(shù)據(jù)可視化和創(chuàng)造性編程也非常感興趣。

圖書(shū)目錄

譯者序 

原書(shū)前言 

第1章 強(qiáng)化學(xué)習(xí)簡(jiǎn)介 //1 

1.1 什么是強(qiáng)化學(xué)習(xí) //1 

1.2 強(qiáng)化學(xué)習(xí)算法 //2 

1.3 強(qiáng)化學(xué)習(xí)與其他機(jī)器學(xué)習(xí)范式的不同 //3 

1.4 強(qiáng)化學(xué)習(xí)的要素 //3 

1.4.1 智能體 //3 

1.4.2 策略函數(shù) //3 

1.4.3 值函數(shù) //4 

1.4.4 模型 //4 

1.5 智能體環(huán)境接口 //4 

1.6 強(qiáng)化學(xué)習(xí)的環(huán)境類型 //5 

1.6.1 確定性環(huán)境 //5 

1.6.2 隨機(jī)性環(huán)境 //5 

1.6.3 完全可觀測(cè)環(huán)境 //5 

1.6.4 部分可觀測(cè)環(huán)境 //5 

1.6.5 離散環(huán)境 //5 

1.6.6 連續(xù)環(huán)境 //5 

1.6.7 情景和非情景環(huán)境 //5 

1.6.8 單智能體和多智能體環(huán)境 //6 

1.7 強(qiáng)化學(xué)習(xí)平臺(tái) //6 

1.7.1 OpenAI Gym和Universe //6 

1.7.2 DeepMind Lab //6 

1.7.3 RLGlue //6 

1.7.4 Project Malmo //6 

1.7.5 VizDoom //6 

1.8 強(qiáng)化學(xué)習(xí)的應(yīng)用 //7 

1.8.1 教育 //7 

1.8.2 醫(yī)療和健康 //7 

1.8.3 制造業(yè) //7 

1.8.4 庫(kù)存管理 //7 

1.8.5 金融 //7 

1.8.6 自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué) //7 

1.9 小結(jié) //8 

1.10 問(wèn)題 //8 

1.11 擴(kuò)展閱讀 //8 

第2章 從OpenAI和TensorFlow入門(mén) //9 

2.1 計(jì)算機(jī)設(shè)置 //9 

2.1.1 安裝Anaconda //9 

2.1.2 安裝Docker //10 

2.1.3 安裝OpenAI Gym和Universe //11 

2.2 OpenAI Gym //13 

2.2.1 基本模擬 //13 

2.2.2 訓(xùn)練機(jī)器人行走 //14 

2.3 OpenAI Universe //16 

2.3.1 構(gòu)建一個(gè)視頻游戲機(jī)器人 //16 

2.4 TensorFlow //20 

2.4.1 變量、常量和占位符 //20 

2.4.2 計(jì)算圖 //21 

2.4.3 會(huì)話 //21 

2.4.4 TensorBoard //22 

2.5 小結(jié) //25 

2.6 問(wèn)題 //25 

2.7 擴(kuò)展閱讀 //25 

第3章 馬爾可夫決策過(guò)程和動(dòng)態(tài)規(guī)劃 //26 

3.1 馬爾可夫鏈和馬爾可夫過(guò)程 //26 

3.2 MDP //27 

3.2.1 獎(jiǎng)勵(lì)和回報(bào) //28 

3.2.2 情景和連續(xù)任務(wù) //28 

3.2.3 折扣因數(shù) //28 

3.2.4 策略函數(shù) //29 

3.2.5 狀態(tài)值函數(shù) //29 

3.2.6 狀態(tài)—行為值函數(shù)(Q函數(shù))//30 

3.3 Bellman方程和最優(yōu)性 //30 

3.3.1 推導(dǎo)值函數(shù)和Q函數(shù)的Bellman方程 //31 

3.4 求解Bellman方程 //32 

3.4.1 動(dòng)態(tài)規(guī)劃 //32 

3.5 求解冰凍湖問(wèn)題 //38 

3.5.1 值迭代 //39 

3.5.2 策略迭代 //43 

3.6 小結(jié) //45 

3.7 問(wèn)題 //45 

3.8 擴(kuò)展閱讀 //46 

第4章 基于蒙特卡羅方法的博弈游戲 //47 

4.1 蒙特卡羅方法 //47 

4.1.1 利用蒙特卡羅方法估計(jì)π值 //47 

4.2 蒙特卡羅預(yù)測(cè) //50 

4.2.1 首次訪問(wèn)蒙特卡羅 //51 

4.2.2 每次訪問(wèn)蒙特卡羅 //52 

4.2.3 利用蒙特卡羅方法玩二十一點(diǎn)游戲 //52 

4.3 蒙特卡羅控制 //58 

4.3.1 蒙特卡羅探索開(kāi)始 //58 

4.3.2 在線策略的蒙特卡羅控制 //59 

4.3.3 離線策略的蒙特卡羅控制 //61 

4.4 小結(jié) //62 

4.5 問(wèn)題 //62 

4.6 擴(kuò)展閱讀 //63 

第5章 時(shí)間差分學(xué)習(xí) //64 

5.1 時(shí)間差分學(xué)習(xí) //64 

5.2 時(shí)間差分預(yù)測(cè) //64 

5.3 時(shí)間差分控制 //66 

5.3.1 Q學(xué)習(xí) //66 

5.3.2 SARSA //72 

5.4 Q學(xué)習(xí)和SARSA之間的區(qū)別 //77 

5.5 小結(jié) //77 

5.6 問(wèn)題 //78 

5.7 擴(kuò)展閱讀 //78 

第6章 MAB問(wèn)題 //79 

6.1 MAB問(wèn)題 //79 

6.1.1 ε貪婪策略 //80 

6.1.2 Softmax探索算法 //82 

6.1.3 UCB算法 //83 

6.1.4 Thompson采樣算法 //85 

6.2 MAB的應(yīng)用 //86 

6.3 利用MAB識(shí)別正確的廣告標(biāo)識(shí) //87 

6.4 上下文賭博機(jī) //89 

6.5 小結(jié) //89 

6.6 問(wèn)題 //89 

6.7 擴(kuò)展閱讀 //89 

第7章 深度學(xué)習(xí)基礎(chǔ) //90 

7.1 人工神經(jīng)元 //90 

7.2 ANN //91 

7.2.1 輸入層 //92 

7.2.2 隱層 //92 

7.2.3 輸出層 //92 

7.2.4 激活函數(shù) //92 

7.3 深入分析ANN //93 

7.3.1 梯度下降 //95 

7.4 TensorFlow中的神經(jīng)網(wǎng)絡(luò) //99 

7.5 RNN //101 

7.5.1 基于時(shí)間的反向傳播 //103 

7.6 LSTM RNN //104 

7.6.1 利用LSTM RNN生成歌詞 //105 

7.7 CNN //108 

7.7.1 卷積層 //109 

7.7.2 池化層 //111 

7.7.3 全連接層 //112 

7.7.4 CNN架構(gòu) //112 

7.8 利用CNN對(duì)時(shí)尚產(chǎn)品進(jìn)行分類 //113 

7.9 小結(jié) //117 

7.10 問(wèn)題 //117 

7.11 擴(kuò)展閱讀 //118 

第8章 基于DQN的Atari游戲 //119 

8.1 什么是DQN //119 

8.2 DQN的架構(gòu) //120 

8.2.1 卷積網(wǎng)絡(luò) //120 

8.2.2 經(jīng)驗(yàn)回放 //121 

8.2.3 目標(biāo)網(wǎng)絡(luò) //121 

8.2.4 獎(jiǎng)勵(lì)裁剪 //122 

8.2.5 算法理解 //122 

8.3 構(gòu)建一個(gè)智能體來(lái)玩Atari游戲 //122 

8.4 雙DQN //129 

8.5 優(yōu)先經(jīng)驗(yàn)回放 //130 

8.6 對(duì)抗網(wǎng)絡(luò)體系結(jié)構(gòu) //130 

8.7 小結(jié) //131 

8.8 問(wèn)題 //132 

8.9 擴(kuò)展閱讀 //132 

第9章 基于DRQN玩Doom游戲 //133 

9.1 DRQN //133 

9.1.1 DRQN架構(gòu) //134 

9.2 訓(xùn)練一個(gè)玩Doom游戲的智能體 //135 

9.2.1 基本的Doom游戲 //135 

9.2.2 基于DRQN的Doom游戲 //136 

9.3 DARQN //145 

9.3.1 DARQN架構(gòu) //145 

9.4 小結(jié) //145 

9.5 問(wèn)題 //146 

9.6 擴(kuò)展閱讀 //146 

第10章 A3C網(wǎng)絡(luò) //147 

10.1 A3C //147 

10.1.1 異步優(yōu)勢(shì)行為者 //147 

10.1.2 A3C架構(gòu) //148


本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)