本發明實施例公開一種基于強化學習的目標追蹤的訓練方法、追蹤方法。本發明實施例的基于強化學習的目標追蹤訓練方法,在傳統ppo算法的策略網絡損失函數上增加正則項對狀態價值函數估計器網絡和策略網絡進行訓練,強化學習的訓練過程分為兩個階段,在第一階段訓練強化學習前期的策略,在第二階段只采集設置好的閾值距離之內的數據進行訓練,使近距離下的控制更加精確。本發明利用強化學習的方法不需要顯式的預測未來時刻目標的加速度,只要知道了高速目標歷史時刻的加速度狀態,利用仿真環境中大量數據的訓練以及正確的訓練方法,可訓練出一個合理的追擊策略。解決了目標追蹤的模型給出的加速度波動過大以及最終的訓練精度不夠的問題。
聲明:
“基于強化學習的目標追蹤的訓練方法、追蹤方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)