本發明公布了一種基于隨機微分方程的連續性強化學習系統及方法,系統包括動作策略生成器APG、環境狀態估計器ESE、值估計器VE,記憶存儲模塊MS和外部環境EE;具體步驟如下:初始化動作策略生成器APG、環境狀態估計器ESE和值估計器VE;動作策略生成器APG計算輸出動作值增量Δak;外部環境EE輸出下一步動作值ak+1、下一步環境狀態值sk+1以及當前步獎勵值Rk,并存儲至記憶存儲模塊MS中;環境狀態估計器ESE更新環境狀態參數集θp和預測未來環境狀態估計值s′k;VE優化器更新Q函數網絡并預測未來獎勵估計值R′k;APG優化器更新動作值參數集θv。本方法基于隨機微分方程作為基礎模型,能實現動作控制的連續性且能控制訓練過程方差,能夠通過預測環境的變化來選擇動作以實現更好的環境交互。
聲明:
“基于隨機微分方程的連續性強化學習系統及方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)