本發明提出的用于智能無人系統的基于評論家和雙經驗池的深度確定性策略梯度強化學習方法及設備,屬于人工智能應用技術領域,主要包括:確定所述智能無人系統的智能體的觀測空間和動作空間大小,構建行動者actor模塊與評論家critic模塊;創建所述critic模塊中的多個評論家子模塊;創建雙經驗池的環形數組數據結構;進行所述actor模塊與critic模塊的參數梯度更新與訓練過程,在達到了最大的迭代次數或者滿足終止條件后訓練過程結束。本發明能夠提供一種更高穩定性和更高性能的強化學習方法,使得智能體的性能表現得到有效提升。
聲明:
“基于評論家和雙經驗池的深度確定性策略梯度學習方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)