針對強化學習中Q?learning算法在復雜環境下難以進行路徑規劃的問題,將深度卷積神經網絡的特征提取能力與強化學習的決策能力相結合,提出了一種基于深度強化學習的改進算法。該方法用值函數近似法代替Q?learning中的動作值函數,設計了包含4層結構的深度卷積神經網絡,以網絡的輸出代替傳統的Q值表,解決了Q?learning在狀態空間較大時產生的維數災難問題。在柵格環境下進行仿真實驗,結果表明該方法相較于Q?learning算法能夠在復雜的環境下進行路徑規劃,并在新的測試集上取得了87%的識別率,具有較強的泛化能力。
聲明:
“基于深度強化學習的機器人路徑規劃方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)