本發明涉及一種多智能體強化學習訓練方法及系統,其方法包括:局部策略訓練階段,智能體局部策略利用自身的局部觀測信息做出動作;全局策略訓練階段,智能體的全局策略利用局部策略作為與環境交互的動作模塊,全局策略以環境全局狀態作為輸入,給出對全局信息在隱空間中進行編碼,同時利用全部智能體的局部觀測信息使用神經網絡對全局狀態進行擬合;局部策略結合各自的局部觀測信息以及全局策略的輸出在環境中做出符合環境要求的合適動作;局部策略優化階段,利用前兩個階段得到的全局策略與局部策略以及擬合模型,在現有的局部策略的基礎上進行優化,最終得到效果更好的智能體。本發明能提升多智能體強化學習訓練的速度和準確性。
聲明:
“多智能體強化學習訓練方法及系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)