本發明公開了一種基于強化學習算法SAC的目標跟蹤方法、裝置及存儲介質,方法包括:獲取視頻數據;在視頻數據的當前幀中確定搜索區域位置和大??;判斷當前幀是否為第一幀;響應于當前幀非第一幀,將當前幀輸入預訓練好的actor網絡模型進行特征提取,得到輸出的預測框,根據所述預測框對目標進行跟蹤;其中所述actor網絡模型的訓練方法,包括:通過第一幀對actor、target_actor網絡進行初始化,根據經驗池中存儲的數據,通過actor、critic網絡計算動作,計算actor、critic1、critic2網絡損失,利用強化學習SAC算法更新網絡權值。將目標跟蹤問題轉化為強化學習算法中在線決策的問題,并且本發明只需要少量數據集,充分利用現有技術,提升訓練速度。
聲明:
“基于強化學習算法SAC的目標跟蹤方法、裝置及存儲介質” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)