本申請涉及一種強化學習模型處理方法、裝置、計算機設備和存儲介質。所述方法包括:當虛擬環境中多個不同陣營的虛擬角色之間進行交互時,獲取交互所產生的交互數據;通過圖形處理器和中央處理器分別對所述交互數據進行特征提取,并將所提取的特征進行合并得到角色特征;通過強化學習模型對所述角色特征進行特征處理,預測出每個虛擬角色對應的交互行為和獎勵值;基于包括所述角色特征、所述交互行為和所述獎勵值的訓練樣本,對與所述強化學習模型關聯的模型進行迭代訓練;當訓練所得的模型達到訓練停止條件時,將訓練所得的模型作為最終的強化學習模型。采用本方法能夠訓練得到的強化學習模型的精度。
聲明:
“強化學習模型處理方法、裝置、計算機設備和存儲介質” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)