深度強化學(xué)習(xí)落地指南

定　價：￥109.00

作　者：	魏寧著
出版社：	電子工業(yè)出版社
叢編項：
標(biāo)　簽：	暫缺

購買這本書可以去

ISBN：	9787121416446	出版時間：	2021-08-01	包裝：	平裝
開本：	16開	頁數(shù)：	202	字數(shù)：

內(nèi)容簡介

　　本書從工業(yè)界一線算法工作者的視角，對深度強化學(xué)習(xí)落地實踐中的工程經(jīng)驗和相關(guān)方法論做出了深度思考和系統(tǒng)歸納。本書跳出了原理介紹加應(yīng)用案例的傳統(tǒng)敘述模式，轉(zhuǎn)而在橫向上對深度強化學(xué)習(xí)落地過程中的核心環(huán)節(jié)進行了完整復(fù)盤。主要內(nèi)容包括需求分析和算法選擇的方法，動作空間、狀態(tài)空間和回報函數(shù)設(shè)計的理念，訓(xùn)練調(diào)試和性能沖刺的技巧等。本書既是前人智慧與作者個人經(jīng)驗的交叉印證和精心整合，又構(gòu)成了從理論到實踐再到統(tǒng)一方法論的認知閉環(huán)，與市面上側(cè)重于算法原理和代碼實現(xiàn)的強化學(xué)習(xí)書籍形成了完美互補。

作者簡介

　　魏　寧本科和碩士分別畢業(yè)于西安交通大學(xué)和中國科學(xué)院大學(xué)計算機專業(yè)，在國際頂級會議和期刊上發(fā)表多篇學(xué)術(shù)論文，曾就職于德國KUKA Robotics從事協(xié)作機器人智能應(yīng)用研發(fā)工作，目前在海康威視研究院任算法專家，負責(zé)深度學(xué)習(xí)、強化學(xué)習(xí)等領(lǐng)域的創(chuàng)新研究和落地應(yīng)用，同時也是互聯(lián)網(wǎng)社區(qū)“深度強化學(xué)習(xí)實驗室”核心成員。

圖書目錄

第1章需求分析\t1
1．1 需求分析：勿做DRL鐵錘人\t1
1．2 一問“是不是”\t2
1．2．1 Agent和環(huán)境定義\t2
1．2．2 馬爾可夫決策過程和強化學(xué)習(xí)\t3
1．3 二問“值不值”\t5
1．3．1 試試規(guī)則和啟發(fā)式搜索\t5
1．3．2 別忘了傳統(tǒng)強化學(xué)習(xí)\t7
1．3．3 使用DRL的理由\t7
1．4 三問“能不能”\t9
1．4．1 場景固定：兩個分布一致\t9
1．4．2 數(shù)據(jù)廉價：多、快、好、費\t13
1．5 四問“邊界在哪里”\t16
1．6 本章小結(jié)\t18
參考文獻\t19
第2章動作空間設(shè)計\t23
2．1 動作空間設(shè)計：這里大有可為\t23
2．1．1 被忽視的價值\t23
2．1．2 動作空間的常見類型\t24
2．1．3 動作空間設(shè)計的基本原則\t26
2．2 動作空間的完備性\t26
2．2．1 功能完備\t27
2．2．2 時效完備\t29
2．3 動作空間的高效性\t30
2．3．1 化整為零：以精度換效率\t31
2．3．2 有機組合：尺度很重要\t33
2．4 動作空間的合法性\t35
2．4．1 非法動作屏蔽機制\t36
2．4．2 Agent的知情權(quán)\t37
2．5 本章小結(jié)\t39
參考文獻\t40
第3章狀態(tài)空間設(shè)計\t43
3．1 狀態(tài)空間設(shè)計：特征工程的誘惑\t43
3．2 狀態(tài)空間設(shè)計的兩種常見誤區(qū)\t44
3．2．1 過分依賴端到端特征學(xué)習(xí)\t44
3．2．2 極致特征工程\t44
3．3 與動作空間和回報函數(shù)的協(xié)同設(shè)計\t45
3．3．1 與動作空間尺度一致\t45
3．3．2 以回報函數(shù)為中心\t46
3．4 狀態(tài)空間設(shè)計的四個步驟\t47
3．4．1 任務(wù)分析\t47
3．4．2 相關(guān)信息篩選\t49
3．4．3 泛化性考量\t53
3．4．4 效果驗證\t58
3．5 本章小結(jié)\t61
參考文獻\t62
第4章回報函數(shù)設(shè)計\t64
4．1 回報函數(shù)設(shè)計：面向強化學(xué)習(xí)的編程\t64
4．2 稀疏回報問題\t65
4．2．1 孤獨無援的主線回報\t65
4．2．2 稀疏回報問題的本質(zhì)\t66
4．3 輔助回報\t67
4．3．1 子目標(biāo)回報\t67
4．3．2 塑形回報\t70
4．3．3 內(nèi)驅(qū)回報\t76
4．3．4 回報取值的注意事項\t77
4．4 回報函數(shù)設(shè)計的常見陷阱\t78
4．4．1 魯莽\t79
4．4．2 貪婪\t80
4．4．3 懦弱\t82
4．5 最優(yōu)回報問題\t83
4．6 基于學(xué)習(xí)的回報函數(shù)\t84
4．6．1 經(jīng)典方法\t84
4．6．2 前沿方法\t85
4．7 本章小結(jié)\t87
參考文獻\t88
第5章算法選擇\t92
5．1 算法選擇：拿來主義和改良主義\t92
5．1．1 DRL算法的發(fā)展脈絡(luò)\t92
5．1．2 一篩、二比、三改良\t94
5．1．3 從獨當(dāng)一面到眾星捧月\t96
5．2 牢記經(jīng)典勿忘本\t97
5．2．1 DQN\t98
5．2．2 DDPG\t99
5．2．3 A3C\t102
5．3 關(guān)注SOTA算法別留戀\t105
5．3．1 TD3\t105
5．3．2 SAC\t107
5．3．3 PPO\t110
5．4 其他算法\t112
5．5 本章小結(jié)\t113
參考文獻\t113
第6章訓(xùn)練調(diào)試\t119
6．1 訓(xùn)練調(diào)試：此事要躬行\(zhòng)t119
6．2 訓(xùn)練前的準(zhǔn)備工作\t120
6．2．1 制定訓(xùn)練方案\t120
6．2．2 選擇網(wǎng)絡(luò)結(jié)構(gòu)\t124
6．2．3 隨機漫步\t128
6．2．4 數(shù)據(jù)預(yù)處理\t129
6．3 訓(xùn)練進行時\t131
6．3．1 反脆弱：擁抱不確定性\t131
6．3．2 調(diào)節(jié)超參數(shù)\t134
6．3．3 監(jiān)控訓(xùn)練狀態(tài)\t143
6．4 給初學(xué)者的建議\t146
6．5 本章小結(jié)\t148
參考文獻\t149
第7章性能沖刺\t154
7．1 性能沖刺：為DRL注入強心劑\t154
7．2 課程學(xué)習(xí)\t155
7．2．1 源任務(wù)及其分類\t155
7．2．2 應(yīng)用方式\t157
7．3 額外監(jiān)督信號\t162
7．3．1 有監(jiān)督預(yù)訓(xùn)練\t163
7．3．2 輔助任務(wù)\t164
7．4 進化策略\t169
7．4．1 基本原理\t169
7．4．2 關(guān)鍵細節(jié)\t170
7．4．3 應(yīng)用方式\t174
7．5 本章小結(jié)\t175
參考文獻\t176