本申請公開了一種視頻數據處理方法、裝置、電子設備和計算機可讀介質。該方法包括:基于預設的獎勵預測模型,對視頻數據中,執行主體執行目標任務時的任務環境進行特征提取,生成任務環境的分布激勵;基于預設的強化學習模型,根據任務環境,生成任務指令,根據任務指令指導執行主體執行目標任務,得到任務結果;基于預設的獎勵評估函數,對任務結果進行評估,生成任務激勵,并根據任務激勵,對獎勵預測模型的參數進行調整;根據分布激勵,對強化學習模型的參數進行調整。籍此,通過強化學習模型生成的任務激勵對獎勵預測模型的參數進行調整,優化獎勵預測模型;通過獎勵預測模型生成的分布激勵對強化學習模型的參數進行調整,優化強化學習模型。
聲明:
“視頻數據處理方法、裝置、電子設備和計算機可讀介質” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)