本發明提供一種訓練推薦領域中強化學習模型的模擬器,其由2個核心模型組成,一是基于GAN的用戶狀態生成模型;另一個是環境反饋算法,其中,環境反饋算法包括基于層次注意力的用戶評級預測模型,以及用戶反饋計算模型。本發明可以生成用戶狀態,以及對推薦智能體生成的動作進行反饋。實驗結果表明,在小數據集的條件下,借助GAN網絡結構的特性,模型依舊能生成可用的用戶狀態,同時,評分結果也在可用范圍之類,此外,所構建的反饋算法不僅能夠有效終止學習過程,而且所計算得到的反饋數據也符合強化學習的訓練要求。
聲明:
“訓練推薦領域中強化學習模型的模擬器” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)