一種強化學習方法和系統,所述強化學習方法和系統選擇要由與環境交互的強化學習智能體執行的動作。因果模型由后見之明模型神經網絡實施并且使用后見之明,即使用未來環境狀態軌跡進行訓練。由于所述方法和系統在選擇動作時無法訪問這種未來信息,因此使用所述后見之明模型神經網絡來訓練模型神經網絡,所述模型神經網絡以來自當前觀測的數據為條件,所述模型神經網絡學習預測所述后見之明模型神經網絡的輸出。
聲明:
“使用后見之明建模來訓練動作選擇神經網絡” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)