本發明公開了一種用稀疏化注意力輔助決策的嵌入式多智能體強化學習方法,屬于強化學習技術領域。初始化多智能體的效用函數網絡參數、混合網絡參數和目標混合網絡參數;獲取每一個智能體的自注意力輸出和稀疏化注意力輸出;使用門控循環單元模塊編碼當前觀測輸出,計算本地常規效用函數和本地稀疏效用函數,分別輸入到混合網絡中,各自擬合得到常規全局價值函數和稀疏全局價值函數,逐漸降低常規全局價值函數的權重,完成強化學習的訓練。在決策推理階段,各個智能體根據本地觀測和自身效用函數來選擇動作輸出給環境,從而與環境進行交互。本發明可以嵌入到任何基于價值函數的MARL框架中,提升智能體決策的效率和精度。
聲明:
“用稀疏化注意力輔助決策的嵌入式多智能體強化學習方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)