強(qiáng)化學(xué)習(xí)實戰(zhàn)：從零開始制作AlphaGo圍棋（微課視頻版）

定　價：￥69.90

作　者：	劉佳
出版社：	清華大學(xué)出版社
叢編項：
標(biāo)　簽：	暫缺

購買這本書可以去

當(dāng)當(dāng)網(wǎng) (￥52.40)

ISBN：	9787302629696	出版時間：	2023-04-01	包裝：	平裝-膠訂
開本：	16開	頁數(shù)：		字?jǐn)?shù)：

內(nèi)容簡介

　　本書通過基礎(chǔ)理論和算法實踐相結(jié)合，循序漸進(jìn)地介紹了人工智能領(lǐng)域中的常見算法，并以圍棋游戲作為媒介，全面、系統(tǒng)地介紹了人工智能算法的實現(xiàn)方法，并通過Keras和PyTorch框架實踐人工智能算法中的深度強(qiáng)化學(xué)習(xí)內(nèi)容。全書共10章，分別介紹圍棋的基礎(chǔ)知識、如何制作圍棋軟件、傳統(tǒng)棋類智能算法、神經(jīng)網(wǎng)絡(luò)入門知識、如何實現(xiàn)圍棋智能體程序、通用化圍棋智能體程序、策略梯度算法、基于價值的深度學(xué)習(xí)網(wǎng)絡(luò)（DQN）算法、ActorCritic算法、如何實踐AlphaGo和AlphaZero等知識，書中的每個知識點都有相應(yīng)的實現(xiàn)代碼和實例。本書主要面向廣大從事數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘或深度學(xué)習(xí)的專業(yè)人員，從事高等教育的專任教師，高等學(xué)校的在讀學(xué)生及相關(guān)領(lǐng)域的廣大科研人員。

作者簡介

暫缺《強(qiáng)化學(xué)習(xí)實戰(zhàn)：從零開始制作AlphaGo圍棋（微課視頻版）》作者簡介

圖書目錄

部分計算機(jī)圍棋的基礎(chǔ)知識和傳統(tǒng)的智能算法
第1章圍棋：黑白的世界
1.1什么是圍棋
1.2圍棋的規(guī)則
1.3勝負(fù)的判定
1.4圍棋棋手的棋力
1.5計算機(jī)眼中的圍棋
1.5.1SGF文件
1.5.2GTP
第2章實現(xiàn)一個圍棋軟件
2.1軟件版本
2.2圍棋軟件的組成
2.3佐布里斯特散列
2.4圍棋智能體
2.5圍棋的棋盤
2.6引入裁判
2.7讓智能體下棋
第3章傳統(tǒng)的棋類智能
3.1極小化極大算法
3.2AlphaBeta剪枝算法
3.3棋類局面評估
3.4蒙特卡羅模擬
3.4.1蒙特卡羅算法
3.4.2蒙特卡羅樹搜索
3.4.3蒙特卡羅算法改進(jìn)
3.4.4需要注意的問題
3.5監(jiān)督學(xué)習(xí)
3.6傳統(tǒng)方法的討論
第二部分基于神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)
第4章機(jī)器學(xué)習(xí)入門
4.1人工神經(jīng)網(wǎng)絡(luò)
4.1.1神經(jīng)元
4.1.2常見的激活函數(shù)
4.1.3多層感知器
4.1.4卷積神經(jīng)網(wǎng)絡(luò)
4.1.5反向傳播算法
4.1.6小批量訓(xùn)練法
4.1.7殘差網(wǎng)絡(luò)
4.1.8多層感知器的應(yīng)用示例
4.1.9卷積網(wǎng)絡(luò)對圖片進(jìn)行多分類的應(yīng)用示例
4.2優(yōu)化神經(jīng)網(wǎng)絡(luò)
4.2.1訓(xùn)練集、驗證集、測試集以及交叉驗證
4.2.2欠擬合與過擬合
4.2.3損失函數(shù)的正則化
4.2.4精確率和召回率的權(quán)衡
4.3其他人工智能方法簡介
4.3.1K近鄰算法
4.3.2樸素貝葉斯法
4.3.3決策樹
4.3.4Boosting算法/Bagging算法
4.3.5支持向量機(jī)
4.3.6隨機(jī)場算法
4.3.7傳統(tǒng)智能算法所面臨的挑戰(zhàn)

第5章個圍棋智能體
5.1電子圍棋棋譜
5.2HDF5文件結(jié)構(gòu)
5.3數(shù)據(jù)模型
5.4獲取訓(xùn)練樣本
5.5代碼演示
第6章通用化圍棋智能體程序
6.1在網(wǎng)絡(luò)上發(fā)布圍棋智能體
6.2本地對戰(zhàn)
6.2.1計算機(jī)的圍棋語言
6.2.2圍棋的對弈圖形界面
6.2.3圍棋引擎
6.3讓圍棋智能體自己去網(wǎng)上下棋
第三部分強(qiáng)化學(xué)習(xí)
第7章策略梯度
第8章深度價值網(wǎng)絡(luò)
8.1傳統(tǒng)的QLearning算法
8.1.1原始版QLearning
8.1.2原始版QLearning計算時的優(yōu)化
8.1.3QLearning的變種Sarsa
8.1.4Sarsa的進(jìn)化Sarsaλ
8.2在神經(jīng)網(wǎng)絡(luò)上應(yīng)用DQN
第9章ActorCritic算法
第10章AlphaGo和AlphaZero
10.1AlphaGo的結(jié)構(gòu)和訓(xùn)練流程
10.2AlphaZero的結(jié)構(gòu)與訓(xùn)練流程
10.3可行的優(yōu)化
附錄AKeras入門
附錄BPyTorch入門
附錄C反向傳播算法
C.1命名約定
C.2正文
C.3進(jìn)一步討論
C.4拓展
附錄D不同地區(qū)的圍棋規(guī)則
D.1中國規(guī)則
D.2日本規(guī)則
D.3應(yīng)氏規(guī)則
D.4新西蘭規(guī)則
D.5美國規(guī)則
D.6智運會規(guī)則
D.7TrompTaylor規(guī)則