注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)人工智能統(tǒng)計(jì)強(qiáng)化學(xué)習(xí):現(xiàn)代機(jī)器學(xué)習(xí)方法

統(tǒng)計(jì)強(qiáng)化學(xué)習(xí):現(xiàn)代機(jī)器學(xué)習(xí)方法

統(tǒng)計(jì)強(qiáng)化學(xué)習(xí):現(xiàn)代機(jī)器學(xué)習(xí)方法

定 價(jià):¥79.00

作 者: (日)杉山將
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購買這本書可以去


ISBN: 9787111622451 出版時(shí)間: 2019-05-01 包裝: 平裝
開本: 16開 頁數(shù): 188 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書從現(xiàn)代機(jī)器學(xué)習(xí)的視角介紹了統(tǒng)計(jì)強(qiáng)化學(xué)習(xí)的基本概念和實(shí)用算法。它涵蓋了各種類型的強(qiáng)化學(xué)習(xí)方法,包括基于模型的方法和與模型無關(guān)的方法,策略迭代和策略搜索方法。

作者簡(jiǎn)介

  杉山將(Masashi Sugiyama) 東京大學(xué)教授,研究興趣為機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的理論、算法和應(yīng)用。2007年獲得IBM學(xué)者獎(jiǎng),以表彰其在機(jī)器學(xué)習(xí)領(lǐng)域非平穩(wěn)性方面做出的貢獻(xiàn)。2011年獲得日本信息處理協(xié)會(huì)頒發(fā)的Nagao特別研究員獎(jiǎng),以及日本文部科學(xué)省頒發(fā)的青年科學(xué)家獎(jiǎng),以表彰其對(duì)機(jī)器學(xué)習(xí)密度比范型的貢獻(xiàn)。

圖書目錄

譯者序

前言
作者簡(jiǎn)介
第一部分 簡(jiǎn)介
第1章 強(qiáng)化學(xué)習(xí)介紹3
 1.1 強(qiáng)化學(xué)習(xí)3
 1.2 數(shù)學(xué)形式化8
 1.3 本書結(jié)構(gòu)11
  1.3.1 模型無關(guān)策略迭代11
  1.3.2 模型無關(guān)策略搜索12
  1.3.3 基于模型的強(qiáng)化學(xué)習(xí)13
第二部分 模型無關(guān)策略迭代
第2章 基于值函數(shù)近似的策略迭代17
 2.1 值函數(shù)17
  2.1.1 狀態(tài)值函數(shù)17
  2.1.2 狀態(tài)-動(dòng)作值函數(shù)18
 2.2 最小二乘策略迭代19
  2.2.1 瞬時(shí)獎(jiǎng)賞回歸20
  2.2.2 算法21
  2.2.3 正則化23
  2.2.4 模型選擇25
 2.3 本章小結(jié)26
第3章 值函數(shù)近似中的基函數(shù)設(shè)計(jì)27
 3.1 圖中的高斯核27
  3.1.1 MDP-誘導(dǎo)圖27
  3.1.2 通用高斯核28
  3.1.3 測(cè)地線高斯核29
  3.1.4 擴(kuò)展到連續(xù)狀態(tài)空間30
 3.2 圖解說明30
  3.2.1 配置30
  3.2.2 測(cè)地線高斯核31
  3.2.3 通用高斯核33
  3.2.4 圖拉普拉斯特征基33
  3.2.5 擴(kuò)散小波35
 3.3 數(shù)值示例35
  3.3.1 機(jī)器人手臂控制35
  3.3.2 機(jī)器人導(dǎo)航39
 3.4 本章小結(jié)46
第4章 策略迭代中的樣本重用47
 4.1 形式化47
 4.2 離策略值函數(shù)近似48
  4.2.1 片段重要性加權(quán)49
  4.2.2 每次決策的重要性加權(quán)50
  4.2.3 自適應(yīng)的每次決策重要性加權(quán)50
  4.2.4 圖解說明51
 4.3 展平參數(shù)的自動(dòng)選擇54
  4.3.1 重要性加權(quán)交叉驗(yàn)證54
  4.3.2 圖解說明55
 4.4 樣本重用策略迭代56
  4.4.1 算法56
  4.4.2 圖解說明56
 4.5 數(shù)值示例58
  4.5.1 倒立擺58
  4.5.2 小車爬山61
 4.6 本章小結(jié)64
第5章 策略迭代中的主動(dòng)學(xué)習(xí)65
 5.1 主動(dòng)學(xué)習(xí)的高效探索65
  5.1.1 問題配置65
  5.1.2 泛化誤差的分解66
  5.1.3 估計(jì)泛化誤差67
  5.1.4 設(shè)計(jì)采樣策略68
  5.1.5 圖解說明69
 5.2 主動(dòng)策略迭代72
  5.2.1 具有主動(dòng)學(xué)習(xí)的樣本重用策略迭代72
  5.2.2 圖解說明73
 5.3 數(shù)值示例74
 5.4 本章小結(jié)76
第6章 魯棒策略迭代79
 6.1 策略迭代中的魯棒性和可靠性79
  6.1.1 魯棒性79
  6.1.2 可靠性80
 6.2 最小絕對(duì)策略迭代81
  6.2.1 算法81
  6.2.2 圖解說明81
  6.2.3 性質(zhì)82
 6.3 數(shù)值示例83
 6.4 可能的拓展88
  6.4.1 Huber損失88
  6.4.2 pinball損失89
  6.4.3 deadzone-linear損失90
  6.4.4 切比雪夫逼近90
  6.4.5 條件風(fēng)險(xiǎn)值91
 6.5 本章小結(jié)92
第三部分 模型無關(guān)策略搜索
第7章 梯度上升的直接策略搜索95
 7.1 形式化95
 7.2 梯度方法96
  7.2.1 梯度上升96
  7.2.2 方差約簡(jiǎn)的基線減法98
  7.2.3 梯度估計(jì)量的方差分析99
 7.3 自然梯度法101
  7.3.1 自然梯度上升101
  7.3.2 圖解說明103
 7.4 計(jì)算機(jī)圖形中的應(yīng)用:藝術(shù)家智能體104
  7.4.1 東方山水畫繪畫104
  7.4.2 狀態(tài)、動(dòng)作和瞬時(shí)獎(jiǎng)賞的設(shè)計(jì)106
  7.4.3 實(shí)驗(yàn)結(jié)果111
 7.5 本章小結(jié)113
第8章 期望最大化的直接策略搜索117
 8.1 期望最大化方法117
 8.2 樣本重用119
  8.2.1 片段重要性加權(quán)119
  8.2.2 每次決策的重要性加權(quán)122
  8.2.3 自適應(yīng)的每次決策重要性加權(quán)123
  8.2.4 展平參數(shù)的自動(dòng)選擇123
  8.2.5 樣本重用的加權(quán)獎(jiǎng)賞回歸125
 8.3 數(shù)值示例125
 8.4 本章小結(jié)131
第9章 策略優(yōu)先搜索133
 9.1 形式化133
 9.2 基于參數(shù)探索的策略梯度134
  9.2.1 策略優(yōu)先的梯度上升134
  9.2.2 方差約簡(jiǎn)的基線減法135
  9.2.3 梯度估計(jì)量的方差分析136
  9.2.4 數(shù)值示例138
 9.3 策略優(yōu)先搜索中的樣本重用142
  9.3.1 重要性加權(quán)142
  9.3.2 基線減法的方差約簡(jiǎn)144
  9.3.3 數(shù)值示例146
 9.4 本章小結(jié)153
第四部分 基于模型的強(qiáng)化學(xué)習(xí)
第10章 轉(zhuǎn)移模型估計(jì)157
 10.1 條件密度估計(jì)157
  10.1.1 基于回歸的方法157
  10.1.2 ε-鄰域核密度估計(jì)158
  10.1.3 最小二乘條件密度估計(jì)159
 10.2 基于模型的強(qiáng)化學(xué)習(xí)161
 10.3 數(shù)值示例162
  10.3.1 連續(xù)型鏈條游走162
  10.3.2 人形機(jī)器人控制167
 10.4 本章小結(jié)171
第11章 轉(zhuǎn)移模型估計(jì)的維度約簡(jiǎn)173
 11.1 充分維度約簡(jiǎn)173
 11.2 平方損失條件熵173
  11.2.1 條件獨(dú)立174
  11.2.2 利用SCE進(jìn)行維度約簡(jiǎn)175
  11.2.3 SCE與平方損失互信息的關(guān)系176
 11.3 數(shù)值示例176
  11.3.1 人工和標(biāo)準(zhǔn)數(shù)據(jù)集176
  11.3.2 人形機(jī)器人179
 11.4 本章小結(jié)182
參考文獻(xiàn)183

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)