Python強化學習：算法、核心技術與行業(yè)應用

定　價：￥129.00

作　者：	埃內斯·比爾金
出版社：	機械工業(yè)出版社
叢編項：
標　簽：	暫缺

購買這本書可以去

當當網 (￥96.70)

ISBN：	9787111734895	出版時間：	2023-10-01	包裝：	平裝-膠訂
開本：	16開	頁數：		字數：

內容簡介

　　本書使用受現實世界商業(yè)和行業(yè)問題啟發(fā)的實際示例來講授強化學習技術的相關知識。本書分為四部分：部分涵蓋強化學習的必要背景，包括定義、數學基礎和強化學習解決方案的概述；第二部分深入介紹先進的強化學習算法（規(guī)?；纳疃萉-學習、基于策略的方法、基于模型的方法、多智能體強化學習等），包括每種算法的優(yōu)缺點；第三部分介紹強化學習中的高級技術，包括機器教學、泛化和域隨機化、元強化學習等主題，還涵蓋強化學習中有助于改進模型的各種高級主題；第四部分講解強化學習的各種應用，例如自主系統(tǒng)、供應鏈管理、營銷和金融、智慧城市與網絡安全等，并討論強化學習領域的一些挑戰(zhàn)及未來方向。學完本書，你將掌握如何訓練和部署自己的強化學習智能體來解決強化學習問題。

作者簡介

暫缺《Python強化學習：算法、核心技術與行業(yè)應用》作者簡介

圖書目錄

CONTENTS
目　　錄
譯者序
前言
作者簡介
審校者簡介
第一部分　強化學習基礎
第1章　強化學習簡介　2
1.1　為什么選擇強化學習　2
1.2　機器學習的三種范式　3
1.2.1　監(jiān)督學習　3
1.2.2　無監(jiān)督學習　4
1.2.3　強化學習　4
1.3　強化學習應用領域和成功案例　5
1.3.1　游戲　6
1.3.2　機器人技術和自主系統(tǒng)　7
1.3.3　供應鏈　8
1.3.4　制造業(yè)　8
1.3.5　個性化和推薦系統(tǒng)　9
1.3.6　智慧城市　9
1.4　強化學習問題的元素　10
1.4.1　強化學習概念　10
1.4.2　將井字棋游戲建模為強化
學習問題　11
1.5　設置強化學習環(huán)境　12
1.5.1　硬件要求　12
1.5.2　操作系統(tǒng)　13
1.5.3　軟件工具箱　13
1.6　總結　14
1.7　參考文獻　15
第2章　多臂老虎機　17
2.1　探索–利用權衡　17
2.2　什么是多臂老虎機問題　18
2.2.1　問題定義　18
2.2.2　一個簡單多臂老虎機問題
的實驗　19
2.3　案例研究：在線廣告　22
2.4　A/B/n測試　23
2.4.1　符號　23
2.4.2　應用于在線廣告場景　24
2.4.3　A/B/n測試的優(yōu)缺點　27
2.5　ε-貪心策略行動　27
2.5.1　應用于在線廣告場景　27
2.5.2　ε-貪心策略行動的優(yōu)缺點　29
2.6　使用置信上界進行行動選擇　30
2.6.1　應用于在線廣告場景　30
2.6.2　使用置信上界的優(yōu)缺點　32
2.7　湯普森（后）采樣　33
2.7.1　應用于在線廣告場景　33
2.7.2　湯普森采樣的優(yōu)缺點　36
2.8　總結　36
2.9　參考文獻　36
第3章　上下文多臂老虎機　37
3.1　為什么我們需要函數近似　37
3.2　對上下文使用函數近似　38
3.2.1　案例研究：使用合成用戶
數據的上下文在線廣告　39
3.2.2　使用正則化邏輯斯諦回歸
的函數近似　42
3.2.3　目標函數：悔值小化　45
3.2.4　解決在線廣告問題　46
3.3　對行動使用函數近似　50
3.3.1　案例研究：使用來自美國
人口普查的用戶數據的上
下文在線廣告　51
3.3.2　使用神經網絡進行函數
近似　55
3.3.3　計算悔值　57
3.3.4　解決在線廣告問題　57
3.4　多臂老虎機和上下文老虎機的
其他應用　59
3.4.1　推薦系統(tǒng)　59
3.4.2　網頁/應用程序功能設計　60
3.4.3　醫(yī)療保健　60
3.4.4　動態(tài)定價　60
3.4.5　金融　60
3.4.6　控制系統(tǒng)調整　60
3.5　總結　61
3.6　參考文獻　61
第4章　馬爾可夫決策過程的制定　63
4.1　馬爾可夫鏈　63
4.1.1　具有馬爾可夫性的隨機
過程　63
4.1.2　馬爾可夫鏈中的狀態(tài)分類　65
4.1.3　轉移和穩(wěn)態(tài)行為　66
4.1.4　示例：網格世界中的n-
步行為　67
4.1.5　示例：一個可遍歷馬爾可
夫鏈中的樣本路徑　69
4.1.6　半馬爾可夫過程和連續(xù)時
間馬爾可夫鏈　70
4.2　引入獎勵：馬爾可夫獎勵過程　70
4.2.1　將獎勵附加到網格世界
示例　71
4.2.2　不同初始化的平均獎勵之
間的關系　72
4.2.3　回報、折扣和狀態(tài)值　72
4.2.4　解析式地計算狀態(tài)值　73
4.2.5　迭代式地估計狀態(tài)值　74
4.3　引入行動：馬爾可夫決策過程　75
4.3.1　定義　75
4.3.2　網格世界作為馬爾可夫決
策過程　76
4.3.3　狀態(tài)值函數　77
4.3.4　行動值函數　77
4.3.5　優(yōu)狀態(tài)值和行動值
函數　78
4.3.6　貝爾曼優(yōu)性　78
4.4　部分可觀測的馬爾可夫決策過程　79
4.5　總結　80
4.6　練習　80
4.7　參考文獻　81
第5章　求解強化學習問題　82
5.1　探索動態(tài)規(guī)劃　82
5.1.1　示例用例：食品卡車的庫存補充　82
5.1.2　策略評估　85
5.1.3　策略迭代　90
5.1.4　值迭代　94
5.1.5　動態(tài)規(guī)劃方法的缺點　95
5.2　用蒙特卡羅法訓練智能體　96
5.2.1　蒙特卡羅預測　97
5.2.2　蒙特卡羅控制　104
5.3　時間差分學習　111
5.3.1　一步時間差分學習　112
5.3.2　n-步時間差分學習　117
5.4　了解模擬在強化學習中的
重要性　117
5.5　總結　118
5.6　練習　119
5.7　參考文獻　119
第二部分　深度強化學習
第6章　規(guī)模化的深度Q-學習　122
6.1　從表格型Q-學習到深度Q-
學習　122
6.1.1　神經網絡擬合的Q-迭代　123
6.1.2　在線Q-學習　127
6.2　深度Q網絡　128
6.2.1　DQN中的關鍵概念　128
6.2.2　DQN算法　129
6.3　DQN擴展：Rainbow　130
6.3.1　擴展　130
6.3.2　集成智能體的性能　134
6.3.3　如何選擇使用哪些擴展：Rainbow的消融實驗　134
6.3.4　“死亡三組合”發(fā)生了什