本發明提出基于AlphaGo Zero改進的國際象棋博弈方法,擴展了AlphaGo Zero方法在人機博弈領域的應用范圍,屬于機器人科技娛樂領域。其包括以下步驟:采用能有效避免梯度彌散并能夠獲得最優位置收斂的CNN、ResNet以及全連接層在內的混合網絡結構,并使用一個訓練網絡同時輸出策略與估值;2)采用強化學習策略,通過使用自我博弈(Self?Play)產生的數據進行訓練,解決序貫結構的數據訓練規模較大的問題,在博弈過程中進行模型優化;3)神經網絡訓練優化模型,定義損失函數并選擇相應的優化器進行向減小損失方向的迭代更新;4)網絡模型評估,使用訓練一段時間后的新模型與訓練前的模型進行對弈,根據勝負局數獲取當前模型的性能以判定是否進行模型的迭代;5)采用第三方軟件進行可視化交互博弈測試與評估。
聲明:
“基于AlphaGo Zero改進的國際象棋博弈方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)