本公開提供了基于深度強化學習對銀行風險定價的優化方法,對動作值函數網絡參數和策略網絡參數進行初始化;通過現有初始化的網絡與銀行模擬環境進行交互,完成初始化經驗回放;通過均勻分布在經驗回放池中采樣,獲取訓練樣本;通過動作值函數網絡和策略網絡的損失函數對當前網絡的參數進行更新;經過多輪訓練,通過預設的更新方式,將當前網絡的參數復制到目標網絡中以完成對銀行風險定價的優化操作。該方法能夠用沙盤模擬平臺的仿真銀行模擬環境,基于深度強化學習算法進行模型訓練,得到可應用于真實銀行經營和場景的模型,并推測出系統性風險約束下銀行最優的風險定價。本公開還涉及基于深度強化學習對銀行風險定價的優化裝置。
聲明:
“基于深度強化學習對銀行風險定價的優化方法和裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)