用于訓練動作器神經網絡的方法、系統、和裝置,包括編碼在計算機存儲介質上的計算機程序,所述動作器神經網絡用于選擇待由與環境交互的代理執行的動作。所述方法中的一個方法包括:獲得小批經驗元組;以及更新所述動作器神經網絡的參數的當前值,包括:對于所述小批中的每個經驗元組:使用評價器神經網絡來處理所述經驗元組中的所述訓練觀測值和所述訓練動作以確定所述經驗元組的神經網絡輸出,并且確定所述經驗元組的目標神經網絡輸出;使用在所述目標神經網絡輸出與所述神經網絡輸出之間的誤差來更新所述評價器神經網絡的參數的當前值;以及使用所述評價器神經網絡來更新所述動作器神經網絡的參數的當前值。
聲明:
“利用深度強化學習的連續控制” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)