本發明公開了一種多智能體強化學習方法及系統,設計了中心化教師模塊與去中心化學生模塊的多智能體強化學習框架,在滿足中心化訓練和去中心化執行的條件的基礎上,解耦了解決獎勵分配和局部觀測問題的模塊,使得模型訓練效率提升。此外,該框架具有普適性,即它可以用于一切基于中心化訓練去中心化執行范式提出來的方法。同時,基于本發明上述方案,在主流的合作多智能體強化學習環境星際爭霸2中進行實驗,實驗結果表明本發明上述方案在性能和訓練效率上都超過了現有方法。
聲明:
“多智能體強化學習方法及系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)