本發明公開了一種面向深度強化學習模型的特征過濾防御方法,包括:(1)針對生成連續行為的DDPG模型,包括actor網絡和critic網絡,其中,所述actor網絡包括動作估計網絡和動作實現網絡,所述critic網絡包括狀態估計網絡和狀態實現網絡,對所述深度強化學習模型DDPG進行預訓練,并將預訓練階段的當前狀態、行為、獎勵值以及下一狀態保存在緩存區;(2)訓練自編碼器,并利用訓練好的自編碼器的編碼器對輸入狀態進行特征過濾,獲得過濾后的輸入狀態對應的特征圖,并保存到緩存區;(3)對預訓練后的DDPG模型中的卷積核進行剪枝,利用剪枝后的DPG模型進行動作預測,輸出并執行預測動作。
聲明:
“面向深度強化學習模型的特征過濾防御方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)