本發明公開了一種基于部分可觀測強化學習的機器人導航控制方法及系統,該控制方法及系統主要應用于機器人在模型未知的不確定性環境的導航任務中。為在的不確定性環境下完成導航任務,本發明采用部分可觀測環境下的強化學習算法。系統包括濾波單元、規劃單元、回放池、學習單元。在本發明中,使用狀態粒子表示信念狀態以減少信念狀態更新的計算復雜度,使用基于學得模型的模擬規劃以提高樣本利用率,使用重采樣方法防止粒子退化問題,使用基于信念狀態負信息熵的獎勵塑形以提高算法在獎勵稀疏的導航任務中的訓練效率和穩定性。本發明能夠在模型未知的部分可觀測環境實現高效穩定的策略學習,并在實際機器人導航任務中使用學得的策略。
聲明:
“基于部分可觀測強化學習的機器人導航控制方法及系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)