本申請提供了一種基于多智能體分層強化學習的多無人機空戰決策方法,所述方法包括:基于實際多無人機空戰場景構建的仿真環境,包括環境約束模型、無人機個體約束模型和對抗影響規則;將多無人機空戰問題建模為半馬爾可夫博弈模型,單個無人機的決策過程抽象為代表高層和底層策略的兩個智能體,分別定義各智能體的狀態空間表示、動作、獎勵函數和動作終止條件;采用一種異策略同步學習與自博弈機制結合的多智能體強化學習算法分別訓練無人機高層和底層策略智能體;完成訓練后無人機基于底層策略智能體的策略網絡和局部觀測進行決策;該方法可實現空戰環境下多無人機的自主無人協同決策,無需人類駕駛員介入,具有較好的即時性和魯棒性。
聲明:
“基于多智能體分層強化學習的多無人機空戰決策方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)