本發明提出了一種基于強化學習的錨泊輔助動力定位系統控制方法,包括:首先構建最優點選擇問題的馬爾科夫決策模型,構建狀態空間與行為空間;采用神經網絡構建強化學習模型Q函數,控制系統基于實時測量的錨泊輔助動力定位系統當前狀態,采用ε貪心算法選擇行為,觀察在選擇行為a后的系統狀態s’與反饋獎勵;將每一時間步的狀態、行為、獲得的獎勵以及新的狀態作為標簽數據存入記憶庫,并訓練神經網絡;通過不斷重復上述過程,錨泊輔助動力定位系統能夠獲得使獎勵函數最大的行為選擇策略,得到定位點控制模式下能使推機器功率消耗最低的最佳定位點。
聲明:
“基于強化學習的錨泊輔助動力定位系統控制方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)