本發明涉及一種基于動態目標分配的深度強化學習隊形變換方法及系統,方法包括:確定狀態空間、動作空間以及獎勵函數;初始化網絡參數、經驗池和訓練環境;判斷訓練回合數是否達到最大;各飛行器以某一初始編隊隊形出發;計算各飛行器最優分配目標點探測器探測周圍己方飛行器,根據障礙錐判斷飛行器是否需要避障或避碰;計算飛行器需要避障的航向角度,各飛行器選擇動作,并進入下一狀態;計算獎勵值;將此時系統狀態、動作、獎勵值和下一系統狀態作為一組元組數據存入經驗池;更新網絡參數;判斷rs是否為C2+C3,訓練結束,復雜障礙環境中隊形變換完成。本發明中的上述方法解決了隊形變換過程中由于目標分配隨機易產生局部最優航路問題。
聲明:
“基于動態目標分配的深度強化學習隊形變換方法及系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)