本發明公開了一種面向強化學習的檢測防御異常數據方法和裝置,包括以下步驟:采集場景a下小車正常駕駛狀態作為樣本數據,對樣本數據采用PCA降維處理,得到前n個特征值的累計貢獻率α以及變換矩陣P;基于DDPG算法建立場景a下自動駕駛訓練模型,預訓練自動駕駛訓練模型,將狀態轉換過程存入經驗回放緩沖區D;采集場景a下自動駕駛訓練模型訓練過程中的狀態st,利用變換矩陣P對狀態st降維處理,計算前n個特征值的累計貢獻率α’;若||α?α’||≥∈,則判定st異常,向對應的獎勵值rt增加懲罰項并將更新后的狀態轉換過程存儲在經驗回放緩沖區D中;根據更新后的獎勵值計算損失函數,利用損失函數更新主網絡的參數。
聲明:
“面向強化學習的檢測防御異常數據方法和裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)