本發明公開了一種基于動態遞歸機制的分層強化學習的推薦系統,包括用戶畫像矯正器:采用一種動態遞歸機制的策略梯度方法,及引入參數動態稀疏權重以刪除噪聲數據來修改用戶畫像,其中,所述動態遞歸機制的策略梯度方法包括:動態基線和基于時序上下文的遞歸強化學習,所述動態基線為采用動態稀疏權重對總收益進行學習策略的改進;注意力機制:用于自動調整用戶偏好的變化;推薦模型:用于通過注意力機制向用戶推薦最相關物品。本發明的推薦系統,通過在策略梯度方法中引入一個參數動態稀疏權重,使智能體在全局最優策略下選擇最優行為;其次,結合時間上下文的分層強化學習,該方法能夠更可靠地收斂,從而提高模型預測的穩定性。
聲明:
“基于動態遞歸機制的分層強化學習的推薦系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)