注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)人工智能強化學(xué)習(第2版)

強化學(xué)習(第2版)

強化學(xué)習(第2版)

定 價:¥168.00

作 者: [加] RichardS.Sutton,(美)AndrewG.Barto 著
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 暫缺

ISBN: 9787121295164 出版時間: 2019-09-01 包裝: 平裝
開本: 16開 頁數(shù): 548 字數(shù):  

內(nèi)容簡介

  《強化學(xué)習(第2版)》作為強化學(xué)習思想的深度解剖之作,被業(yè)內(nèi)公認為是一本強化學(xué)習基礎(chǔ)理論的經(jīng)典著作。它從強化學(xué)習的基本思想出發(fā),深入淺出又嚴謹細致地介紹了馬爾可夫決策過程、蒙特卡洛方法、時序差分方法、同軌離軌策略等強化學(xué)習的基本概念和方法,并以大量的實例幫助讀者理解強化學(xué)習的問題建模過程以及核心的算法細節(jié)。 《強化學(xué)習(第2版)》適合所有對強化學(xué)習感興趣的讀者閱讀、收藏。

作者簡介

  Richard Sutton(理查德?薩頓) 埃德蒙頓 DeepMind 公司的杰出科學(xué)家,阿爾伯塔大學(xué)計算科學(xué)系教授。他于2003年加入阿爾伯塔大學(xué),2017年加入DeepMind。之前,曾在美國電話電報公司(AT&T)和通用電話電子公司(GTE)實驗室工作,在馬薩諸塞大學(xué)做學(xué)術(shù)研究。 1978年獲得斯坦福大學(xué)心理學(xué)學(xué)士學(xué)位,1984年獲得馬薩諸塞大學(xué)計算機科學(xué)博士學(xué)位,加拿大皇家學(xué)會院士和人工智能促進會的會士。 主要研究興趣是在決策者與環(huán)境相互作用時所面臨的學(xué)習問題,他認為這是智能的核心問題。其他研究興趣有:動物學(xué)習心理學(xué)、聯(lián)結(jié)主義網(wǎng)絡(luò),以及能夠不斷學(xué)習和改進環(huán)境表征和環(huán)境模型的系統(tǒng)。 他的科學(xué)出版物被引用超過7萬次。 他也是一名自由主義者,國際象棋選手和癌癥幸存者。 Andrew Barto (安德魯?巴圖) 馬薩諸塞大學(xué)阿默斯特分校信息與計算機科學(xué)學(xué)院名譽教授。1970年獲得密歇根大學(xué)數(shù)學(xué)專業(yè)的杰出學(xué)士學(xué)位,并于1975年獲該校計算機科學(xué)專業(yè)的博士學(xué)位。1977年他加入馬薩諸塞州阿默斯特大學(xué)計算機科學(xué)系。在2012年退休之前,他帶領(lǐng)了馬薩諸塞大學(xué)的自主學(xué)習實驗室,該實驗室培養(yǎng)了許多著名的機器學(xué)習研究者。 目前擔任Neural Computation (《神經(jīng)計算》)期刊的副主編,Journal of Machine Learning Research (《機器學(xué)習研究》)期刊的顧問委員會成員,以及Adaptive Behavior (《自適應(yīng)行為》)期刊的編委員會成員。 他是美國科學(xué)促進會的會員,IEEE(國際電子電氣工程師協(xié)會)的終身會士(Life Fellow),也是神經(jīng)科學(xué)學(xué)會的成員。 2004年,因強化學(xué)習領(lǐng)域的貢獻榮獲IEEE神經(jīng)網(wǎng)絡(luò)學(xué)會先鋒獎,并因在強化學(xué)習理論和應(yīng)用方面的開創(chuàng)、富有影響力的研究獲得 IJCAI-17卓越研究獎;2019年獲得馬薩諸塞大學(xué)神經(jīng)科學(xué)終身成就獎。 他在各類期刊、會議和研討會上發(fā)表了100多篇論文,參與撰寫多部圖書的相關(guān)章節(jié)。 譯者簡介 俞凱 上海交通大學(xué)計算科學(xué)與工程系教授,思必馳公司創(chuàng)始人、首席科學(xué)家。清華大學(xué)自動化系本科、碩士,劍橋大學(xué)工程系博士。青年千人,國家自然科學(xué)基金委優(yōu)青,上海市“東方學(xué)者”特聘教授。IEEE 高級會員,現(xiàn)任 IEEE Speech and Language Processing Technical Committee 委員,中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟學(xué)術(shù)和知識產(chǎn)權(quán)組組長,中國計算機學(xué)會語音對話及聽覺專業(yè)組副主任。 長期從事交互式人工智能,尤其是智能語音及自然語言處理的研究和產(chǎn)業(yè)化工作。發(fā)表國際期刊和會議論文 150 余篇,獲得Computer Speech and Language, Speech Communication 等多個國際期刊及InterSpeech等國際會議的優(yōu)論文獎,所搭建的工程系統(tǒng)曾獲美國國家標準局語音識別評測冠軍,對話系統(tǒng)國際研究挑戰(zhàn)賽冠軍等。 獲評2014“吳文俊人工智能科學(xué)技術(shù)獎”進步獎,“2016科學(xué)中國人年度人物”,2018中國計算機學(xué)會“青竹獎”。

圖書目錄

第1章 導(dǎo)論 1
1.1 強化學(xué)習 1
1.2 示例 4
1.3 強化學(xué)習要素 5
1.4 局限性與適用范圍 7
1.5 擴展實例:井字棋 8
1.6 本章小結(jié) 12
1.7 強化學(xué)習的早期歷史 13

第I部分 表格型求解方法 23

第2章 多臂賭博機 25
2.1 一個 k 臂賭博機問題 25
2.2 動作-價值方法 27
2.3 10 臂測試平臺 28
2.4 增量式實現(xiàn) 30
2.5 跟蹤一個非平穩(wěn)問題 32
2.6 樂觀初始值 34
2.7 基于置信度上界的動作選擇 35
2.8 梯度賭博機算法 37
2.9 關(guān)聯(lián)搜索 (上下文相關(guān)的賭博機) 40
2.10 本章小結(jié) 41

第3章 有限馬爾可夫決策過程 45
3.1 “智能體-環(huán)境”交互接口 45
3.2 目標和收益 51
3.3 回報和分幕 52
3.4 分幕式和持續(xù)性任務(wù)的統(tǒng)一表示法 54
3.5 策略和價值函數(shù) 55
3.6 最優(yōu)策略和最優(yōu)價值函數(shù) 60
3.7 最優(yōu)性和近似算法 65
3.8 本章小結(jié) 66

第4章 動態(tài)規(guī)劃 71
4.1 策略評估 (預(yù)測) 72
4.2 策略改進 75
4.3 策略迭代 78
4.4 價值迭代 80
4.5 異步動態(tài)規(guī)劃 83
4.6 廣義策略迭代 84
4.7 動態(tài)規(guī)劃的效率 85
4.8 本章小結(jié) 86

第5章 蒙特卡洛方法 89
5.1 蒙特卡洛預(yù)測 90
5.2 動作價值的蒙特卡洛估計 94
5.3 蒙特卡洛控制 95
5.4 沒有試探性出發(fā)假設(shè)的蒙特卡洛控制 98
5.5 基于重要度采樣的離軌策略 101
5.6 增量式實現(xiàn) 107
5.7 離軌策略蒙特卡洛控制 108
5.8 ? 折扣敏感的重要度采樣 110
5.9 ? 每次決策型重要度采樣 112
5.10 本章小結(jié) 113

第 6 章 時序差分學(xué)習 117
6.1 時序差分預(yù)測 117
6.2 時序差分預(yù)測方法的優(yōu)勢 122
6.3 TD(0) 的最優(yōu)性 124
6.4 Sarsa:同軌策略下的時序差分控制 127
6.5 Q 學(xué)習:離軌策略下的時序差分控制 129
6.6 期望 Sarsa 131
6.7 最大化偏差與雙學(xué)習 133
6.8 游戲、后位狀態(tài)和其他特殊例子 135
6.9 本章小結(jié) 136

第7章 n 步自舉法 139
7.1 n 步時序差分預(yù)測 140
7.2 n 步 Sarsa 144
7.3 n 步離軌策略學(xué)習 146
7.4 ? 帶控制變量的每次決策型方法 148
7.5 不需要使用重要度采樣的離軌策略學(xué)習方法:n 步樹回溯算法 150
7.6 ? 一個統(tǒng)一的算法:n 步 Q(σ) 153
7.7 本章小結(jié) 155

第8章 基于表格型方法的規(guī)劃和學(xué)習 157
8.1 模型和規(guī)劃 157
8.2 Dyna:集成在一起的規(guī)劃、動作和學(xué)習 159
8.3 當模型錯誤的時候 164
8.4 優(yōu)先遍歷 166
8.5 期望更新與采樣更新的對比 170
8.6 軌跡采樣 173
8.7 實時動態(tài)規(guī)劃 176
8.8 決策時規(guī)劃 179
8.9 啟發(fā)式搜索 180
8.10 預(yù)演算法 182
8.11 蒙特卡洛樹搜索 184
8.12 本章小結(jié) 187
8.13 第I部分總結(jié) 188

第II部分 表格型近似求解方法 193

第9章 基于函數(shù)逼近的同軌策略預(yù)測 195
9.1 價值函數(shù)逼近 195
9.2 預(yù)測目標 (VE ) 196
9.3 隨機梯度和半梯度方法 198
9.4 線性方法 202
9.5 線性方法的特征構(gòu)造 207
9.5.1 多項式基 208
9.5.2 傅立葉基 209
9.5.3 粗編碼 212
9.5.4 瓦片編碼 214
9.5.5 徑向基函數(shù) 218
9.6 手動選擇步長參數(shù) 219
9.7 非線性函數(shù)逼近:人工神經(jīng)網(wǎng)絡(luò) 220
9.8 最小二乘時序差分 225
9.9 基于記憶的函數(shù)逼近 227
9.10 基于核函數(shù)的函數(shù)逼近 229
9.11 深入了解同軌策略學(xué)習:“興趣”與“強調(diào)” 230
9.12 本章小結(jié) 232

第10章 基于函數(shù)逼近的同軌策略控制 239
10.1 分幕式半梯度控制 239
10.2 半梯度 n 步 Sarsa 242
10.3 平均收益:持續(xù)性任務(wù)中的新的問題設(shè)定 245
10.4 棄用折扣 249
10.5 差分半梯度 n 步 Sarsa 251
10.6 本章小結(jié) 252

第11 章 ? 基于函數(shù)逼近的離軌策略方法 253
11.1 半梯度方法 254
11.2 離軌策略發(fā)散的例子 256
11.3 致命三要素 260
11.4 線性價值函數(shù)的幾何性質(zhì) 262
11.5 對貝爾曼誤差做梯度下降 266
11.6 貝爾曼誤差是不可學(xué)習的 270
11.7 梯度 TD 方法 274
11.8 強調(diào) TD 方法 278
11.9 減小方差 279
11.10 本章小結(jié) 280

第12章 資格跡 283
12.1 λ-回報 284
12.2 TD(λ) 287
12.3 n-步截斷 λ- 回報方法 291
12.4 重做更新:在線 λ-回報算法 292
12.5 真實的在線 TD(λ) 294
12.6 ? 蒙特卡洛學(xué)習中的荷蘭跡 296
12.7 Sarsa(λ) 298
12.8 變量 λ 和 γ 303
12.9 帶有控制變量的離軌策略資格跡 304
12.10 從 Watkins 的 Q(λ) 到樹回溯 TB(λ) 308
12.11 采用資格跡保障離軌策略方法的穩(wěn)定性 310
12.12 實現(xiàn)中的問題 312
12.13 本章小結(jié) 312

第13章 策略梯度方法 317
13.1 策略近似及其優(yōu)勢 318
13.2 策略梯度定理 320
13.3 REINFORCE:蒙特卡洛策略梯度 322
13.4 帶有基線的 REINFORCE 325
13.5 “行動器-評判器”方法 327
13.6 持續(xù)性問題的策略梯度 329
13.7 針對連續(xù)動作的策略參數(shù)化方法 332
13.8 本章小結(jié) 333

第III部分 表格型深入研究 337

第14章 心理學(xué) 339
14.1 預(yù)測與控制 340
14.2 經(jīng)典條件反射 341
14.2.1 阻塞與高級條件反射 342
14.2.2 Rescorla-Wagner 模型 344
14.2.3 TD 模型 347
14.2.4 TD 模型模擬 348
14.3 工具性條件反射 355
14.4 延遲強化 359
14.5 認知圖 361
14.6 習慣行為與目標導(dǎo)向行為 362
14.7 本章小結(jié) 366

第15章 神經(jīng)科學(xué) 373
15.1 神經(jīng)科學(xué)基礎(chǔ) 374
15.2 收益信號、強化信號、價值和預(yù)測誤差 375
15.3 收益預(yù)測誤差假說 377
15.4 多巴胺 379
15.5 收益預(yù)測誤差假說的實驗支持 382
15.6 TD 誤差/多巴胺對應(yīng) 385
15.7 神經(jīng)“行動器-評判器” 390
15.8 行動器與評判器學(xué)習規(guī)則 393
15.9 享樂主義神經(jīng)元 397
15.10 集體強化學(xué)習 399
15.11 大腦中的基于模型的算法 402
15.12 成癮 403
15.13 本章小結(jié) 404

第 16 章 應(yīng)用及案例分析 413
16.1 TD-Gammon 413
16.2 Samuel 的跳棋程序 418
16.3 Watson 的每日雙倍投注 421
16.4 優(yōu)化內(nèi)存控制 424
16.5 人類級別的視頻游戲 428
16.6 主宰圍棋游戲 433
16.6.1 AlphaGo 436
16.6.2 AlphaGo Zero 439
16.7 個性化網(wǎng)絡(luò)服務(wù) 442
16.8 熱氣流滑翔 446

第17章 前沿技術(shù) 451
17.1 廣義價值函數(shù)和輔助任務(wù) 451
17.2 基于選項理論的時序摘要 453
17.3 觀測量和狀態(tài) 456
17.4 設(shè)計收益信號 460
17.5 遺留問題 464
17.6 人工智能的未來 467

參考文獻 473

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號