本發明公開了基于模型的高樣本率深度強化學習的無人設備控制方法,包括:獲取軌跡數據,并將軌跡數據存入環境緩沖池中;對環境狀態轉移模型進行更新;進行多步交互軌跡預測生成預測數據,并將預測數據存入模型緩沖池;對Actor?Critic策略模型進行更新;持續迭代更新環境狀態轉移模型和Actor?Critic策略模型直至當前策略性能達到預期要求。本發明采用基于模型的深度強化學習的方法,構建一個環境狀態轉移模型來模擬無人設備與外界環境的交互,從而急劇減少無人設備與真實環境的交互次數,并且由環境狀態轉移模型產生的數據能夠對無人設備行進控制策略進行有效的優化,使得對無人設備的控制變得高效。
聲明:
“基于模型的高樣本率深度強化學習的無人設備控制方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)