基于強化學習的多機器人圍捕多目標的分布式決策方法,包括:一、仿真環境初始化,隨機生成障礙物、追逐者和逃跑者的狀態信息,追逐者和逃跑者都為智能體的機器人;二、獲取機器人的觀測值信息;三、獲取機器人的可行動作,遍歷其動作空間得到可行動作集;四、策略神經網絡根據觀測值信息從當前狀態的可行動作集中選擇出一個動作;五、仿真環境根據選擇出的動作對機器人進行更新并計算執行該動作獲得的獎勵;六、將四?五的決策過程存儲到經驗收集池中;七、重復二?六直到達到單輪最大的仿真時間;八、根據存儲器中的各個智能體與仿真環境的交互信息,使用多智能體強化學習算法進行訓練;九、重復一?八直到達到最大的交互訓練輪數。
聲明:
“基于強化學習的多機器人圍捕多目標的分布式決策方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)