按照各種實施方式,描述了一種用于訓練受控系統的控制裝置的方法,其中該控制裝置具有調節裝置和按照控制策略來工作的執行器。該方法具有:通過該調節裝置來產生控制行動,其中每個控制行動都通過如下方式來被產生:檢測說明受控系統的狀態的測量參量,按照該控制策略來確定執行器的針對所檢測到的測量參量的修正項,使用針對所檢測到的測量參量的修正項來使所檢測到的測量參量適配,并且通過將經適配的測量參量作為實際值輸送給該調節裝置來產生該控制行動。該方法還具有:通過強化學習來訓練該控制策略,以使通過所產生的控制行動來實現的收益最大化。
聲明:
“用于訓練受控系統的控制裝置的方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)