本發明公開了一種基于對抗架構的強化學習方法,本發明相比傳統的離散強化學習算法,我們的方法引入對抗架構和目標神經網絡。對抗架構使得算法無須直接對動作價值函數Q進行預測,而是可以將該價值函數分解為狀態價值函數V(s)和優勢函數A(s,a)之和。這種架構可以增強價值函數預測的準確性,并且對于動作選擇造成的價值函數變化更加敏感,可以加速算法的收斂。而使用目標網絡作為目標價值函數的評估網絡,有效降低了對于動作價值函數預測過的估計風險,使得價值函數的預測更加準確,提升了算法的魯棒性。
聲明:
“基于對抗架構的強化學習方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)