本發明屬于強化學習、多智能體領域,具體涉及一種基于集成學習的多智能體信用分配方法、系統、設備,旨在解決解決現有技術只關注局部狀態空間,對全局狀態信息的利用不充分,從而導致智能體無法在博弈環境中取得最優動作,造成多智能體協調能力差的問題。本方法包括:分別獲取博弈雙方每一個智能體的動作信息和歷史觀測信息,作為輸入信息;將輸入信息分別輸入各智能體對應的智能體網絡,得到Q值;各智能體根據Q值,得到e?greedy策略,進而在設定的博弈場景中進行探索。本發明通過平衡多樣性和準確性來充分利用全局狀態信息,實現有效的集成信用分配,進而實現了智能體在博弈環境中取得最優動作進行探索,提升多智能體協調能力。
聲明:
“基于集成學習的多智能體信用分配方法、系統、設備” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)