基于增強學習的制造系統(tǒng)調度

定　價：￥88.00

作　者：	張智聰，鄭力著
出版社：	科學出版社
叢編項：
標　簽：	工業(yè)技術一般工業(yè)技術

購買這本書可以去

ISBN：	9787030492890	出版時間：	2016-06-01	包裝：	平裝
開本：	16開	頁數(shù)：	219	字數(shù)：

內容簡介

　　增強學習是人工智能領域一種應用越來越廣泛的機器學習算法。《基于增強學習的制造系統(tǒng)調度》對增強學習的基本原理、主要經(jīng)典算法及其在制造系統(tǒng)調度領域若干問題的應用進行闡述。主要內容包括：Sarsa（λ，k）增強學習算法等增強學習算法的介紹及相關理論證明；增強學習架構及面向生產(chǎn)調度問題的增強學習模型構建方式；流水車間調度問題、平行機調度問題、半導體測試調度問題等制造系統(tǒng)調度問題與自組織型排隊網(wǎng)絡調度問題的增強學習模型及解決方案；增強學習在以上調度問題應用的實驗結果及相關分析等。《基于增強學習的制造系統(tǒng)調度》適合管理科學與工程、工業(yè)工程等專業(yè)的研究生和本科生使用，也可供從事制造系統(tǒng)分析與優(yōu)化、智能調度等領域工作的研究人員和工程技術人員參考。

作者簡介

　　張智聰，1980年生，廣東東莞人，2007年于清華大學獲博士學位，現(xiàn)任東莞理工學院教授、中國機械工程學會生產(chǎn)工程分會生產(chǎn)系統(tǒng)專業(yè)委員會常委。主要研究領域是制造系統(tǒng)優(yōu)化、排隊網(wǎng)絡，增強學習。主持國家自然科學基金、教育部人文社會科學研究項目、廣東省自然科學基金，廣東省科技計劃、廣東省高等學校優(yōu)秀青年教師培養(yǎng)計劃、廣東省教育廳重點平臺及科研項目等多個科研項目。在國內外期刊發(fā)表論文20余篇，獲得4項專利授權和1項軟件著作權。鄭力，1991年于清華大學獲博士學位，現(xiàn)任清華大學工業(yè)工程系教授、博士生導師、教育部長江學者特聘教授，機械工程學會工業(yè)工程分會副主任委員，生產(chǎn)工程分會的常務理事、國際工業(yè)工程學會中國部首任主任，多個國際學術期刊的編委。主要研究領域是生產(chǎn)系統(tǒng)分析與管理、企業(yè)信息化。發(fā)表論文200余篇，出版專著和教材5本，曾獲得國家科技進步獎、高等教育國家教學成果一等獎、國家發(fā)明獎、教育部優(yōu)秀青年教師獎和北京市五一勞動獎章，享受國務院特殊津貼。

圖書目錄

前言
第1章緒論
1．1 增強學習基本原理
1．1．1 馬爾可夫決策過程
1．1．2 增強學習系統(tǒng)
1．1．3 增強學習算法的分類與發(fā)展概述
1．2 增強學習算法應用引例——最短路問題
1．3 增強學習算法在調度領域的應用研究
1．4 本書組織結構
第2章增強學習算法
2．1 經(jīng)典的增強學習算法
2．1．1 TD／TD(λ)學習算法
2．1．2 Q學習
2．1．3 Sarsa算法
2．1．4 R學習
2．2 Sarsa(λ，k)算法
2．2．1 Sarsa(λ，k)算法的基本原理
2．2．2 前視與后視Sarsa(λ，k)算法
2．2．3 Sarsa(λ，k)算法的性質
2．3 SMDP型Sarsa(λ，k)算法
2．4 多維行為的增強學習算法
2．5 一種自適應步長的增強學習算法
第3章流水車間調度問題
3．1 問題描述
3．2 流水車間調度問題的增強學習模型
3．2．1 系統(tǒng)狀態(tài)表示
3．2．2 行為
3．2．3 報酬函數(shù)
3．3 結合線性函數(shù)泛化器的TD(λ)算法及實驗結果
3．3．1 結合線性函數(shù)泛化器的TD(λ)算法
3．3．2 實驗結果
第4章平行機調度問題
4．1 最小化加權平均流程時間的離線平行機調度
4．1．1 問題描述
4．1．2 增強學習模型
4．1．3 實驗結果
4．2 最小化加權平均誤工時間的離線平行機調度
4．2．1 問題描述
4．2．2 增強學習建模
4．2．3 實驗結果
4．3 最小化加權平均流程時間的在線平行機調度
4．3．1 問題描述
4．3．2 增強學習模型
4．3．3 實驗結果
4．4 最小化加權平均誤工時間的在線平行機調度
4．4．1 問題描述
4．4．2 增強學習模型
4．4．3 求解變速機調度問題的R學習
4．4．4 實驗結果
第5章半導體測試調度問題
5．1 半導體測試調度問題描述
5．2 關于半導體測試調度的研究
5．2．1 附加資源充足的半導體測試調度
5．2．2 附加資源受限的半導體測試調度
5．2．3 和半導體測試調度相關的調度問題
5．2．4 小結
5．3 整數(shù)規(guī)劃模型
5．3．1 符號定義
5．3．2 決策變量
5．3．3 目標函數(shù)和約束
5．3．4 問題性質分析
5．4 半導體測試調度問題的增強學習模型
5．4．1 狀態(tài)變量及狀態(tài)轉移機制
5．4．2 行為
5．4．3 報酬函數(shù)
5．5 結合函數(shù)泛化器的Sarsa(λ，k)算法
5．5．1 徑向基神經(jīng)網(wǎng)絡函數(shù)泛化器
5．5．2 神經(jīng)網(wǎng)絡的構造
5．5．3 函數(shù)泛化器的權重更新法則
5．5．4 結合徑向基神經(jīng)網(wǎng)絡函數(shù)泛化器的Sarsa(λ，k)算法
5．6 演示算例
5．7 參數(shù)設置與函數(shù)泛化器性能分析
5．7．1 行為選擇
5．7．2 參數(shù)設置
5．7．3 函數(shù)泛化器性能分析
5．8 半導體測試調度實驗結果與分析
5．8．1 與工業(yè)方法及各行為策略對比
5．8．2 與其他增強學習算法對比
5．8．3 與能力約束調度方法對比
5．9 討論
5．10 可重構制造系統(tǒng)調度
5．10．1 具有可重構特性的調度系統(tǒng)機制
5．10．2 增強學習模型架構
第6章排隊網(wǎng)絡控制問題
6．1 多服務臺排隊系統(tǒng)控制的半馬爾可夫決策模型
6．1．1 問題描述
6．1．2 半馬爾可夫決策模型建模
6．1．3 排隊控制系統(tǒng)的性質
6．1．4 數(shù)值例子
6．2 自組織型排隊網(wǎng)絡控制問題
6．2．1 自組織型排隊網(wǎng)絡控制問題描述
6．2．2 自組織型排隊網(wǎng)絡控制問題的增強學習模型
6．2．3 解決自組織型排隊網(wǎng)絡控制問題的增強學習算法
第7章結束語
參考文獻
其他參考文獻