本發明公開了一種基于值分解的多智能體強化學習方法及系統,方法包括:獲取環境當前t時刻的狀態St,每個智能體初始的觀察值可獲得的動作以及該動作對應的獎勵r;對于每個智能體,通過評估?智能體網絡計算每個動作基于局部信息τi觀察到的值函數Qi(τi);利用隨機?智能體網絡得到每個智能體基于全局信息τ的獎勵值函數Qi(τ);利用目標?智能體網絡計算損失函數并更新參數;利用競爭?智能體網絡將每個智能體基于全局信息τ的獎勵值函數Qi(τ)進行分解;將分解結果相加得到基于全局信息τ的聯合獎勵值函數Qtot(τ,a),完成訓練。本發明對多智能體之間的邏輯拓撲關系進行了雙重提取,在復雜的異構部分可觀測場景中,提高智能體的學習效率和應變能力。
聲明:
“基于值分解的多智能體強化學習方法及系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)