注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)人工智能白話強(qiáng)化學(xué)習(xí)與PyTorch

白話強(qiáng)化學(xué)習(xí)與PyTorch

白話強(qiáng)化學(xué)習(xí)與PyTorch

定 價(jià):¥99.00

作 者: 高揚(yáng),葉振斌 著
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購買這本書可以去


ISBN: 9787121367472 出版時(shí)間: 2019-08-01 包裝: 平裝
開本: 16開 頁數(shù): 432 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  以平實(shí)的語言風(fēng)格講解強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的結(jié)合,以及他們?cè)赑ytorch上的應(yīng)用。內(nèi)容將從幾個(gè)方面來進(jìn)行落實(shí),一個(gè)是原理,一個(gè)是相關(guān)論文的精講,一個(gè)是工程實(shí)現(xiàn),是一本脈絡(luò)清晰,內(nèi)容詳實(shí)的科普讀物。本書第一章到第五章,講的是傳統(tǒng)強(qiáng)化學(xué)習(xí)的研究目標(biāo)與脈絡(luò),主要講的是從一個(gè)程序員的角度怎么理解強(qiáng)化學(xué)習(xí)過渡為輕松,側(cè)重理解方式的誘導(dǎo)。第六章到第十一章,是本書的核心內(nèi)容,講的是深度學(xué)習(xí)的原理,Pytorch框架的基本知識(shí),以及深度強(qiáng)化學(xué)習(xí)的常用算法模型。第十二章到第十五章,講的是擴(kuò)展性的知識(shí),例如其它幫助我們訓(xùn)練模型的算法思路,第三方工具插件,可供實(shí)驗(yàn)的環(huán)境,以及比較有趣的強(qiáng)化學(xué)習(xí)算法和觀點(diǎn),甚至還包括模型落地中的優(yōu)化與壓縮。

作者簡(jiǎn)介

  高揚(yáng),金山辦公軟件人工智能組技術(shù)負(fù)責(zé)人,歷任歡聚時(shí)代人工智能算法專家,金山軟件西山居大數(shù)據(jù)架構(gòu)師等職。重慶工商大學(xué)研究生導(dǎo)師,電子工業(yè)出版社博文視點(diǎn)大數(shù)據(jù)技術(shù)圖書專家委員會(huì)專家委員,有多年海外工作經(jīng)驗(yàn)。有多部白話系列大數(shù)據(jù)與機(jī)器學(xué)習(xí)相關(guān)著作。 葉振斌,現(xiàn)任網(wǎng)易游戲伏羲人工智能實(shí)驗(yàn)室高級(jí)深度學(xué)習(xí)研發(fā)工程師。多年從事機(jī)器學(xué)習(xí),特別是強(qiáng)化學(xué)習(xí)智能算法的研究及開發(fā)工作。擁有豐富的軟件開發(fā)經(jīng)驗(yàn),豐富的人工智能算法訓(xùn)練平臺(tái)開發(fā)經(jīng)驗(yàn)。于2014年獲東北大學(xué)軟件工程專業(yè)學(xué)士學(xué)位,2017年獲重慶大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)碩士學(xué)位。

圖書目錄

第1章 強(qiáng)化學(xué)習(xí)是什么
1.1 題設(shè)
1.1.1 多智能才叫智能
1.1.2 人工智能的定義
1.2 強(qiáng)化學(xué)習(xí)的研究對(duì)象
1.2.1 什么場(chǎng)合需要強(qiáng)化學(xué)習(xí)
1.2.2 強(qiáng)化學(xué)習(xí)的建模
1.3 本章小結(jié)
第2章 強(qiáng)化學(xué)習(xí)的脈絡(luò)
2.1 什么是策略
2.2 什么是好的策略
2.3 什么是模型
2.4 如何得到一個(gè)好的策略
2.4.1 直接法
2.4.2 間接法
2.5 馬爾可夫決策過程
2.5.1 狀態(tài)轉(zhuǎn)移
2.5.2 策略與評(píng)價(jià)
2.5.3 策略優(yōu)化
2.6 MODEL-BASED和MODEL-FREE
2.6.1 Model-Based
2.6.2 規(guī)劃問題
2.6.3 Model-Free
2.7 本章小結(jié)
第3章 動(dòng)態(tài)規(guī)劃
3.1 狀態(tài)估值
3.2 策略優(yōu)化
3.3 本章小結(jié)
第4章 蒙特卡羅法
4.1 狀態(tài)估值
4.2 兩種估值方法
4.2.1 首次訪問策略估值
4.2.2 每次訪問策略估值
4.3 策略優(yōu)化
4.4 本章小結(jié)
第5章 時(shí)間差分
5.1 SARSA算法
5.1.1 偽代碼
5.1.2 SARSA的優(yōu)缺點(diǎn)
5.2 Q-LEARNING
5.2.1 偽代碼
5.2.2 Q-Learning的優(yōu)缺點(diǎn)
5.3 ON-POLICY和OFF-POLICY
5.4 ON-LINE學(xué)習(xí)和OFF-LINE學(xué)習(xí)
5.5 比較與討論
5.6 本章小結(jié)
第6章 深度學(xué)習(xí)
6.1 PyTorch簡(jiǎn)介
6.1.1 歷史淵源
6.1.2 支持
6.2 神經(jīng)元
6.3 線性回歸
6.4 激勵(lì)函數(shù)
6.4.1 Sigmoid函數(shù)
6.4.2 Tanh函數(shù)
6.4.3 ReLU函數(shù)
6.4.4 Linear函數(shù)
6.5 神經(jīng)網(wǎng)絡(luò)
6.6 網(wǎng)絡(luò)訓(xùn)練
6.6.1 輸入
6.6.2 輸出
6.6.3 網(wǎng)絡(luò)結(jié)構(gòu)
6.6.4 損失函數(shù)
6.6.5 求解極小值
6.6.6 線性回歸
6.6.7 凸函數(shù)
6.6.8 二元(多元)凸函數(shù)
6.6.9 導(dǎo)數(shù)補(bǔ)充
6.6.10 導(dǎo)數(shù)怎么求
6.6.11 “串聯(lián)式”神經(jīng)元
6.6.12 模型的工作
6.6.13 損失函數(shù)的理解
6.7 深度學(xué)習(xí)的優(yōu)勢(shì)
6.7.1 線性和非線性的疊加
6.7.2 不用再提取特征
6.7.3 處理線性不可分
6.8 手寫數(shù)字識(shí)別公開數(shù)據(jù)集
6.9 全連接網(wǎng)絡(luò)
6.9.1 輸入輸出
6.9.2 代碼解讀
6.9.2.1 網(wǎng)絡(luò)結(jié)構(gòu)
6.9.2.2 交叉熵?fù)p失函數(shù)
6.9.3 運(yùn)行結(jié)果
6.10 卷積網(wǎng)絡(luò)
6.10.1 代碼解讀
6.10.2 理解卷積網(wǎng)絡(luò)結(jié)構(gòu)
6.10.3 卷積核結(jié)構(gòu)
6.11 循環(huán)神經(jīng)網(wǎng)絡(luò)
6.11.1 網(wǎng)絡(luò)結(jié)構(gòu)
6.11.2 RNN應(yīng)用案例
6.11.3 代碼解讀
6.12 其它注意事項(xiàng)
6.12.1 并行計(jì)算
6.12.2 梯度消失與梯度爆炸
6.12.3 歸一化
6.12.4 超參數(shù)設(shè)置
6.12.5 正則化
6.12.6 不唯一的模型
6.13 深度神經(jīng)網(wǎng)絡(luò)的發(fā)展趨勢(shì)
6.14 本章小結(jié)
第7章 GYM——不要錢的試驗(yàn)場(chǎng)
7.1 簡(jiǎn)介
7.2 安裝
7.3 類別介紹
7.4 接口
7.5 本章小結(jié)
第8章 DQN算法族
8.1 DQN 2013
8.1.1 模型結(jié)構(gòu)
8.1.2 訓(xùn)練過程
8.1.3 Replay Memory
8.1.4 小結(jié)
8.2 DQN 2015
8.2.1 模型結(jié)構(gòu)
8.2.2 訓(xùn)練過程
8.2.3 Target網(wǎng)絡(luò)
8.2.4 小結(jié)
8.3 DOUBLE DQN
8.3.1 模型結(jié)構(gòu)
8.3.2 訓(xùn)練過程
8.3.3 效果
8.3.4 小結(jié)
8.4 DUELING DQN
8.4.1 模型結(jié)構(gòu)
8.4.2 效果
8.4.3 小結(jié)
8.5 優(yōu)先回放DQN
8.6 GORILA DQN
8.7 本章小結(jié)
第9章 PG算法族
9.1 策略梯度
9.2 ACTOR-CRITIC
9.3 DPG
9.4 DDPG
9.5 本章小結(jié)
第10章 A3C
10.1 模型結(jié)構(gòu)
10.1.1 A3C DQN
10.1.2 A3C DDPG
10.2 本章小結(jié)
第11章、UNREAL
11.1 主任務(wù)
11.2 像素控制任務(wù)
11.3 獎(jiǎng)勵(lì)值預(yù)測(cè)
11.4 值函數(shù)回放
11.5 損失函數(shù)
11.6 本章小結(jié)
第12章 NEAT
12.1 遺傳算法
12.1.1 進(jìn)化過程
12.1.2 算法流程
12.1.3 背包問題
12.1.4 極大(小)值問題
12.2 NEAT原理
12.2.1 基因組
12.2.2 變異和遺傳
12.3 NEAT示例
12.3.1 Cartpole
12.3.2 Lunar Lander
12.4 本章小結(jié)
第13章 SERPENTAI
13.1 簡(jiǎn)介
13.2 安裝配置
13.3 示例
13.3.1 創(chuàng)建Game Plugin
13.3.2 創(chuàng)建Game Agent
13.3.3 訓(xùn)練Context Classifier
13.3.4 模型設(shè)計(jì)
13.3.5 訓(xùn)練Agent
13.4 本章小結(jié)
第14章 案例詳解
14.1 ALPHAGO
14.1.1 AlphaGO的前世今生
14.1.2 深藍(lán)是誰
14.1.3 圍棋到底有多復(fù)雜
14.1.4 論文要義
14.1.5 成績(jī)
14.1.6 開源項(xiàng)目
14.2 ALPHAGO ZERO
14.2.1 改進(jìn)之處
14.2.2 成績(jī)
14.2.3 開源項(xiàng)目
14.3 試驗(yàn)場(chǎng)大觀
14.3.1 《星際爭(zhēng)霸2》
14.3.2 VizDoom
14.3.3 Universe
14.3.4 DOTA2
14.4 本章小結(jié)
第15章 擴(kuò)展討論
15.1 TRPO
15.2 反向強(qiáng)化學(xué)習(xí)
15.3 模型壓縮
15.3.1 剪枝
15.3.2 量化
15.3.3 結(jié)構(gòu)壓縮
15.3.4 矩陣分解
15.4 本章小結(jié)
后記
附錄
參考文獻(xiàn)

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)