本發明涉及用于訓練神經網絡系統的方法、系統和裝置,包括在計算機存儲介質上編碼的計算機程序,該神經網絡系統用于控制與環境交互的代理執行指定任務。所述方法之一包括:使代理執行任務情節,其中代理嘗試執行指定任務;針對序列中的一個或多個特定時間步中的每個時間步:根據(i)在該時間步處的實際獎勵,和(ii)在序列中在特定時間步之后多于時間步閾值數目的一個或多個時間步處的值預測,生成針對特定時間步的修改獎勵;以及通過強化學習,通過使用至少針對特定時間步的修改獎勵來訓練所述神經網絡系統。
聲明:
“通過使用時間值傳遞在長時間尺度上控制代理” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)