本發明公開了一種基于深度強化學習的惡意PDF文件對抗樣本生成方法,涉及信息系統安全技術領域。本發明基于強化學習的PDF對抗樣本生成方法使用強化學習模型從已有的探索經驗中形成快速尋找下一個最佳修改動作的策略,根據檢測器返回的分類結果選擇合適的修改動作執行黑盒攻擊,而不依賴于對檢測器特征集合的先驗知識,克服了啟發式算法的缺陷并在實際情景下具有可行性。同時,通過自動尋找最優修改動作修改給定的PDF文件,生成可逃逸檢測器檢測的對抗樣本,并采用離線訓練與在線微調的方式輕量化更新生成模型,使得模型保持對不斷進化的PDF惡意軟件和檢測器的有效性,從而暴露檢測器缺陷、提高機器學習檢測器的魯棒性。
聲明:
“基于深度強化學習的惡意PDF文件對抗樣本生成方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)