本發明公開了一種智能體最優策略獲取方法及裝置,該方法包括:將智能體在與環境交互過程中接收的全局獎勵建模為單一智能體真實的局部獎勵和不可觀測環境狀態引起的隨機噪聲信號之和,構建系統模型;利用卡爾曼濾波算法,從觀測到的多智能體系統中智能體在與環境交互過程中接收的全局獎勵中獲得當前智能體對應的局部獎勵;根據各智能體對應的局部獎勵,通過預設的強化學習算法,對多智能系統中的各智能體進行訓練,使得每一智能體分別學習到當前環境下的最優策略。本發明解決了不平穩環境下的多智能體系統信用分配問題,能提高多智能體系統在完成協作任務過程中計算的高效性和魯棒性。
聲明:
“智能體最優策略獲取方法及裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)