本發明公開了一種基于強化學習的解決氣體勘測問題的方法,包括如下步驟:S1:定義解決氣體含量勘測問題需要的動作空間和狀態空間,為actor?演員角色和critic?評論家角色分別建立神經網絡來處理動作的生成和評價的反饋;S2:將初始動作傳遞給問題環境,得到對應的狀態和動作結果的獎懲值,以及loss值,將loss值和獎懲值反饋給神經網絡進行梯度下降處理得到下一步的動作;S3:將得到的狀態(氣體含量)進行氣體勘測,平衡多種約束條件再次利用強化學習概率選擇的能力去尋求最優解。本發明利用算法強大的學習能力和神經網絡高運算速率的優勢去解決氣體勘測問題中尋找最優解問題,解決了傳統遺傳算法時間長,復雜度高問題。
聲明:
“基于強化學習的解決氣體含量勘測問題的方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)