本申請涉及一種移動機器人導航方法、裝置、計算機設備和存儲介質。所述方法包括:通過特征提取模塊對目標點圖像和場景圖像提取特征得到當前狀態的狀態特征;通過逆強化學習模塊解算預先給定的專家軌跡,得到獎勵函數;通過A3C強化學習網絡中的策略網絡輸出機器人的預測執行動作,通過值網絡得到預測值函數,在執行動作得到下一狀態后,根據當前狀態、下一狀態和執行動作計算TD誤差,得到第一損失函數;根據狀態特征和權值參數,得到專家獎勵值,根據網絡獎勵值和專家獎勵值得到第二損失函數;對A3C強化學習網絡和獎勵網絡進行訓練,得到訓練好的移動機器人導航模型用于導航。本發明可提高機器人室內導航的準確率和效率,泛化能力強。
聲明:
“移動機器人導航方法、裝置、計算機設備和存儲介質” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)