本發明公開了一種基于注意力機制的多智能體深度強化學習策略優化方法,所述方法包括如下步驟:搭建多智能體強化學習協作模擬場景,并利用深度確定性策略梯度算法訓練多智能體;個性生成器利用概率分類器對智能體觀察到的圖片的概率分布進行預測,對概率分布器進行訓練,使得概率分布器區分智能體更加準確,從而使得智能體的個性逐漸顯現;獲取每個時間步智能體觀察到的圖片的特征信息并正則化獎勵折扣因子,將得到的獎勵折扣因子更新至個性生成器中的獎勵函數得到新設置的獎勵函數;將新設置的獎勵函數更新至深度確定性策略梯度算法的多智能體強化學習框架中對多智能體進行訓練,直至多智能體達到收斂。
聲明:
“基于注意力機制的多智能體深度強化學習策略優化方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)