本發明涉及一種基于強化學習的導航濾波器參數優化方法。首先,基于∈貪心策略,根據狀態動作值函數選擇不同系統噪聲和測量噪聲方差的組合;同時,通過導航濾波器在應用環境中進行探索,并根據導航濾波器的測量殘差計算得到獎賞;進而,根據計算得到的獎賞,利用時序差分方法更新狀態動作值函數,其取值反映了所選擇的噪聲方差與實際應用環境的匹配程度;隨著導航濾波過程的進行,通過迭代計算,能夠以較大的概率選擇與實際應用環境相匹配的噪聲方差,從而實現自適應地調整導航濾波器中系統噪聲方差和測量噪聲方差的目的。所提方法能夠增強導航濾波器克服系統噪聲和測量噪聲方差不確定性影響的能力,改善衛星自主導航精度。
聲明:
“基于強化學習的導航濾波器參數優化方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)