一種實現并行任務調度的多任務強化學習方法,基于異步優勢表演者批評家算法實現,包括下列操作步驟:(1)對算法模型進行設置操作以更好的解決并行多任務調度問題,包括設置狀態空間、設置動作空間、設置獎勵定義;(2)對算法網絡進行如下改進:用深度神經網絡來表示策略函數和值函數;全局網絡由輸入層、共享子網絡和輸出子網絡構成;(3)設置算法的新損失函數;(4)利用采集觀測的并行任務調度數據,訓練算法網絡,算法收斂后,將所述算法網絡用于并行任務調度。
聲明:
“實現并行任務調度的多任務強化學習方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)