本發明屬于智能體深度強化學習的測試領域,為多智能體協作環境強化學習算法的測試方法。所述多智能體協作環境深度強化學習算法中的智能體為兩大類,一類是空間動作相對固定化的智能體,一類是動作和狀態空間復雜的智能體,第一類智能體采用求最大置信回報值的算法(UCB算法),第二類智能體采用求取最優聯合動作和狀態的全局函數(QMIX算法)。本發明針對兩種算法的特點,分析多智能體訓練模型輸出的回報值和收益值,得收斂速度和效果的影響因子,通過分析影響因子得出測試多智能體協作環境出算法深度強化學習的測試技術要點,為多智能體協作環境下深度學習算法的驗證提供了有效依據。
聲明:
“多智能體協作環境強化學習算法的測試方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)