官术网_书友最值得收藏!

1.4 技術(shù)路線及創(chuàng)新點(diǎn)

1.4.1 技術(shù)路線

本書在深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)以及其他相關(guān)技術(shù)的基礎(chǔ)上解決車間生產(chǎn)調(diào)度問題,技術(shù)路線如圖1.3所示。

圖1.3 技術(shù)路線圖

1.4.2 創(chuàng)新點(diǎn)

在新一代人工智能技術(shù)迅速發(fā)展的背景下,深度強(qiáng)化學(xué)習(xí)等方法在車間生產(chǎn)調(diào)度問題上的應(yīng)用還有待深入研究,本書研究的出發(fā)點(diǎn)是將相關(guān)技術(shù)和方法用于求解流水車間調(diào)度、作業(yè)車間調(diào)度、多目標(biāo)車間調(diào)度和分布式車間調(diào)度等問題,力爭在以新一代人工智能技術(shù)求解生產(chǎn)調(diào)度等組合優(yōu)化問題上做一些工作。結(jié)合幾種生產(chǎn)調(diào)度問題的實(shí)際情形,分析完善了深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)方法在生產(chǎn)調(diào)度問題中應(yīng)用的理論依據(jù)和可行性,在實(shí)驗(yàn)的基礎(chǔ)上較好地找到了方法與問題的結(jié)合點(diǎn),以深度強(qiáng)化學(xué)習(xí)方法為主線,其他相關(guān)技術(shù)為補(bǔ)充,取得了豐碩的研究成果,在理論和方法上做了一些創(chuàng)新工作。本書的主要創(chuàng)新點(diǎn)如下:

設(shè)計(jì)了以基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)方法求解車間調(diào)度問題的模型。首先,改進(jìn)了兩種基于監(jiān)督學(xué)習(xí)的序列模型用于求解作業(yè)車間調(diào)度問題,以長短期記憶網(wǎng)絡(luò)為主框架,基于自注意力和多頭自注意力機(jī)制的序列模型,構(gòu)建了深層編碼組件和解碼組件,同時嵌入指針網(wǎng)絡(luò)和條件隨機(jī)場的問題模型,將工件的工序位置理解為以一定的概率存在于某個位置,設(shè)計(jì)了深度神經(jīng)網(wǎng)絡(luò)逼近值函數(shù)的方法。其次,在強(qiáng)化學(xué)習(xí)框架下分析調(diào)度問題的底層特征,將啟發(fā)式規(guī)則用于強(qiáng)化學(xué)習(xí)動作構(gòu)建,通過深度學(xué)習(xí)框架將當(dāng)前狀態(tài)映射為最佳調(diào)度規(guī)則,將車間調(diào)度問題映射到強(qiáng)化學(xué)習(xí)模型并加以解決,為基于值函數(shù)逼近的強(qiáng)化學(xué)習(xí)算法求解類似問題提供了參考。

提出了一種將基于策略梯度的深度強(qiáng)化學(xué)習(xí)算法用于求解車間調(diào)度問題的場景。設(shè)計(jì)了一種基于長短期記憶網(wǎng)絡(luò)的深度序列模型,結(jié)合指針網(wǎng)絡(luò)提高工序位置指向的準(zhǔn)確性,將工序排列空間中不同工序序列的差異作為獎勵信號,采用策略迭代的深度強(qiáng)化學(xué)習(xí)算法進(jìn)行問題求解。實(shí)驗(yàn)結(jié)果表明,基于策略梯度的深度強(qiáng)化學(xué)習(xí)算法具有解決作業(yè)車間調(diào)度問題的能力,所設(shè)計(jì)的模型在解決此類問題時具有可行性和有效性。

設(shè)計(jì)了基于混合Q-learning的多目標(biāo)車間調(diào)度問題算法。結(jié)合強(qiáng)化學(xué)習(xí)算法、帶精英策略的非支配排序遺傳算法和蟻群算法,對帶精英策略的非支配排序遺傳算法的交叉和變異機(jī)制進(jìn)行改進(jìn),加入基于N5鄰域結(jié)構(gòu)的局部搜索策略,設(shè)計(jì)了新的算法并進(jìn)行多目標(biāo)問題求解。在Pareto解的基礎(chǔ)上針對能耗目標(biāo)進(jìn)一步優(yōu)化,設(shè)計(jì)了強(qiáng)化學(xué)習(xí)遺傳蟻群算法并進(jìn)行求解,拓寬了強(qiáng)化學(xué)習(xí)算法的應(yīng)用場景。

提出了一種基于NASH-Q-learning的分布式車間調(diào)度問題算法。在分布式流水車間調(diào)度問題背景下,深入分析了多智能體強(qiáng)化學(xué)習(xí)方法,在NASH均衡和NASH-Q-learning理論框架下,結(jié)合平均場理論提出了多智能體車間調(diào)度算法。通過與改進(jìn)的迭代貪婪算法進(jìn)行對比,驗(yàn)證了深度強(qiáng)化學(xué)習(xí)方法在求解分布式車間調(diào)度問題時的有效性,且通過實(shí)驗(yàn)證明了該算法也適用于規(guī)模較大的分布式生產(chǎn)調(diào)度問題。

主站蜘蛛池模板: 长海县| 秦皇岛市| 龙胜| 无为县| 江川县| 常德市| 张家港市| 砚山县| 德化县| 新建县| 惠水县| 马鞍山市| 宁乡县| 克山县| 乃东县| 临沧市| 南乐县| 卢氏县| 万安县| 琼结县| 沙坪坝区| 湘西| 长治市| 桂东县| 登封市| 灌阳县| 赫章县| 鹰潭市| 二手房| 岳池县| 石家庄市| 寿光市| 遂溪县| 房产| 高平市| 苍山县| 肇庆市| 亚东县| 定州市| 清苑县| 徐汇区|