本發明為基于強化學習和模仿學習的智能補貨決策方法及存儲介質,包括MDP設計模塊,模仿學習建模模塊以及智能決策模塊;模仿學習建模模塊包括行為克隆模塊以及對抗式模仿學習模塊;智能決策模塊包括基礎策略以及探索策略。本發明結合行為克隆和對抗式模仿學習兩種方式,通過行為克隆應對簡單業務場景,使智能體的補貨決策能力達到專家平均水平,通過對抗式模仿學習構建對抗獎勵函數應對復雜業務場景,超越專家決策水平。本發明有效解決現有補貨系統對輸入數據依賴度較高,模型穩定性低、泛化能力弱的問題,并避免了黑盒預測,擁有更好的商業落地能力以及業務拓展能力。
聲明:
“基于強化學習和模仿學習的智能補貨決策方法及存儲介質” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)