本發明公開了一種基于深度強化學習的艦載機保障作業人員調度方法,包括以下步驟:構建艦載機保障過程的馬爾可夫決策過程(Markov Decision Process,MDP)模型,作為智能體訓練環境;根據保障作業流程,確定智能體及其觀測空間與動作空間;隨后設計獎勵函數、經驗抽取機制和終止條件,并基于此設計網絡結構;通過設置主要參數初始化環境,并采用多智能體深度確定策略梯度算法(Multi Agent Deep Deterministic Policy Gradient,MADDPG)訓練智能體;最終使用完成訓練智能體的決策輔助指揮人員進行保障作業人員調度。本發明可用于人員調度智能決策,將各類保障小組設定為智能體,輔助指揮人員和保障人員進行決策,提高保障作業決策效率,從而提高艦載機出動回收架次率。
聲明:
“基于深度強化學習的艦載機保障作業人員調度方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)