本發明公開了帶動作集合的強化學習干擾波形生成、評價方法及裝置,建立干擾波形庫;構建干擾波形決策網絡,包括策略網絡和價值網絡;探索階段使用跟蹤算法進行干擾,填充經驗池;從經驗池中隨機選取一組數據;根據當前通信狀態的干擾動作,通過策略網絡預測下一時刻相應干擾動作;根據策略網絡輸出的干擾動作,生成離散化干擾動作,從干擾波形庫中選取干擾動作,并結合策略網絡輸出的干擾動作,共同輸入價值網絡,得到價值最高的干擾動作作為實際的干擾動作;再進行干擾效果評價。針對干擾動作和干擾參數龐大的情況,對通信方的抗干擾行為進行學習,解決了現有干擾波形算法收斂速度慢、準確率不高的問題,實現了精準干擾。
聲明:
“帶動作集合的強化學習干擾波形生成、評價方法及裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)