- 計算智能算法及其生產調度應用
- 任劍鋒
- 2838字
- 2024-06-28 19:12:23
1.3 研究內容及目標
1.3.1 研究內容
本書致力于深入理解深度強化學習的運行機制,研究車間生產問題的內在特征,將深度強化學習和其他技術用于求解流水車間調度、作業車間調度、多目標車間調度和分布式車間調度等問題。
本書的主要內容包括三個部分:
第一部分由第1、2、3、4、5章組成,主要介紹本書的研究背景、研究現狀、研究目標、研究內容和技術路線,以及深度學習、強化學習和深度強化學習的基本理論,內容在節次安排上有較強的邏輯關系。首先,介紹了新一代人工智能與生產制造的關系,論述了新一代人工智能技術用于生產制造領域的可行性和必要性,詳細介紹了前饋神經網絡、卷積神經網絡和循環神經網絡三種典型的神經網絡模型。在深度神經網絡基礎上,介紹了基于深度卷積神經網絡的深度學習、基于深度稀疏自編碼器的深度學習和基于核函數方法的深度學習三種典型框架。其次,介紹了強化學習相關內容,包括馬爾可夫決策過程、值迭代、策略迭代等內容。最后介紹了深度強化學習,包括深度強化學習的基本原理,深度強化學習與深度學習和強化學習之間的聯系和區別,并介紹了當前主要的深度強化學習方法。
第二部分是本書的核心部分,由第6、7、8、9、10共五章組成,詳細介紹本書的主要內容。
第6章研究了基于監督學習的兩種序列模型求解作業車間調度問題。首先,設計了以長短期記憶神經網絡為主框架,同時嵌入指針網絡和條件隨機場的模型,然后利用析取圖來描述作業車間調度問題和相應的可行解,通過實際問題提取樣本,并利用啟發式調度規則構建樣本標簽。將作業車間調度問題理解為一類特殊的序列決策問題,采用長短期記憶網絡為主框架來學習工件之間的特征映射關系并確定調度規則,進而得到工件的優先級。其次,在自注意力機制和多頭自注意力機制的基礎上,設計模型對作業車間調度問題進行求解,模型的編碼組件和解碼組件分別由多個同結構的編碼器和多個同結構的解碼器組成,可以根據實際需要加深模型層次,并通過自注意力機制的并行能力提升模型訓練效率。本章內容為后續通過深度強化學習求解相關生產調度問題提供了支撐。
第7章研究了基于值函數的深度強化學習方法求解流水車間調度問題。分析了流水車間調度問題的狀態、動作和值函數的表達方式,通過工件的時間特征和加工機器的負載狀況來構建強化學習局部和全局狀態特征。將特定狀態下對應的調度規則作為動作,并訓練神經網絡來完成狀態與動作的映射關系,將流水車間調度問題的最大完工時間問題轉化為相當的機器空閑時間最小問題來構建獎勵值函數。通過訓練得到有監督學習網絡的初始權重,構建深度神經網絡來逼近強化學習值函數,實驗結果表明以基于值函數的強化學習方法解決生產調度問題的有效性。本章內容承接了第6章的理論和技術支撐,同時為后續基于策略梯度的深度強化學習方法求解生產調度問題提供了一定的支撐。
第8章研究了以基于策略梯度的深度強化學習算法求解作業車間調度問題。首先分析了基于策略梯度的深度強化學習方法求解作業車間調度問題的可行性,將工序排列空間中不同的序列差異作為即時獎勵信號,將生產調度問題的評價目標作為累積獎勵值。將長短期記憶網絡、指針網絡、策略梯度優化應用到作業車間調度問題上,借助長短期記憶網絡的長程記憶能力有效收集工件之間的特征和相互依賴關系,通過指針網絡確定當前狀態下工件的優先級概率分布,并形成有效的調度序列。為了提高算法的求解質量,在策略梯度優化中同時構建神經網絡來預測相應的基線以降低策略梯度優化的方差。實驗結果表明,基于策略梯度的深度強化學習算法具有解決作業車間調度問題的能力,且模型在解決此類問題時具有較好的可復制性。通過第7章和第8章的研究,基于值函數和策略梯度的深度強化學習方法共同構成了深度強化學習求解生產調度問題的理論和技術基礎,為應用深度強化學習方法解決更復雜的多目標生產調度問題和分布式生產調度問題提供了支撐。
第9章研究了基于混合Q-learning的多目標車間調度優化問題。在作業車間調度問題背景下,研究了考慮工件運輸的生產調度完工時間、拖期時間、能源消耗等多目標的問題,對帶精英策略的非支配排序遺傳算法的交叉和變異機制進行改進,加入基于N5鄰域結構的局部搜索策略,對設計的新的帶精英策略的非支配排序遺傳算法進行多目標問題求解。在Pareto解的基礎上針對能耗目標進一步優化,將加工機器抽象為二維坐標點,設計了強化學習遺傳蟻群算法進行求解,利用掃描法求解初始搬運機器人的數量,然后將子路徑節點的幾何中心設置為虛擬節點,利用嵌入遺傳算子的蟻群算法求解連接虛擬節點的最優路徑,再利用強化學習算法求解子路徑的最優結果。這部分工作進一步拓寬了強化學習的應用場景,實驗結果證明了算法求解多目標生產調度問題的有效性。
第10章研究了基于NASH-Q-learning的分布式車間調度問題。在分布式流水車間調度問題背景下,將多智能體強化學習方法作為問題求解模型的主框架,對多智能體強化學習理論進行了梳理。同時,在NASH均衡和NASH-Q-learning的理論框架下,將平均場理論和多智能體結合提出了多智能體車間調度算法,在分布式流水車間調度情境下進行驗證。同時,還對迭代貪婪算法進行改進,最后對兩種算法的求解結果進行比較,實驗證明了所提出的多智能體車間調度強化學習方法求解分布式生產調度問題的有效性。第8章和第9章的研究進一步證實了深度強化學習與其他相關理論和技術結合可以解決更加復雜的生產調度問題。
本書的第三部分由第11章組成,主要是對本書的總結以及對未來研究的展望。
首先,對全書的內容做了總結,對深度強化學習等技術用于求解車間調度問題的方法、思路、建模、算法設計等做了系統梳理,對各種方法的優點做了分析,對深度強化學習技術用于解決復雜組合優化問題的局限性做了總結。其次,針對應用和理論方面存在的不足,闡明了下一步的研究目標和努力方向。
本書的結構框架如圖1.2所示。

圖1.2 本書框架
1.3.2 研究目標
使用深度學習、強化學習和深度強化學習技術,在深入研究生產調度領域現有成果的基礎上,探究車間生產調度問題的規律和特點,借助于新一代人工智能技術和啟發式調度規則,對車間生產調度問題進行建模和算法設計,研究深度學習、強化學習和深度強化學習技術的相關理論,并進行補充和完善,構建車間生產調度問題框架下的機器學習方法和理論體系,基于深度強化學習等技術求解生產調度優化問題。
研究基于監督學習的作業車間調度方法,在作業車間調度問題情形下驗證基于長短期記憶神經網絡框架和注意力機制的序列模型有效性,并為后續以深度強化學習算法求解生產調度問題提供理論和技術支撐。
研究以基于值函數和策略梯度的深度強化學習方法解決車間生產調度問題,并在相應的車間調度問題情形下驗證方法的有效性,并為后續綜合應用深度強化學習求解多目標和分布式調度問題提供理論和技術支撐。
研究強化學習與其他啟發式智能算法結合的新算法求解多目標車間調度相關問題,并通過實驗驗證算法的有效性。
研究以基于深度強化學習和NASH均衡理論的新算法求解分布式車間調度問題,通過實驗驗證算法的有效性,進一步拓寬深度強化學習算法的應用范圍。
- 軟件架構設計
- 手把手教你玩轉RPA:基于UiPath和Blue Prism
- Apache Hive Essentials
- OpenStack Cloud Computing Cookbook(Second Edition)
- Pig Design Patterns
- Implementing Splunk 7(Third Edition)
- DevOps Bootcamp
- SAP Business Intelligence Quick Start Guide
- R Data Analysis Projects
- 電腦上網入門
- Cloud Native Development Patterns and Best Practices
- 信息技術基礎應用
- 智能移動機器人的設計、制作與應用
- MATLAB寶典
- PostgreSQL Administration Cookbook(9.5-9.6 Edition)