本發明涉及追捕技術分析技術領域,具體是涉及用于形成追捕策略的強化學習模型訓練方法和訓練裝置。本發明逃跑者的控制量并不是確定性的,而是根據追捕者的信息給出的控制量,即逃跑者與追捕者進行了交互,這與實際追捕過程中逃跑者會根據追捕者的信息而做出相應的逃跑策略上的改變是一致的,追捕強化學習模型再根據改變之后的逃跑策略而給出追捕者的追捕策略。如此往復地對追捕強化學習模型進行訓練,這樣等到的已訓練追捕強化學習模型應用到實際追逃過程中,即便逃跑者針對追捕者改變了逃跑策略,追捕者依然能夠精準地實現對逃跑者的追捕,從而增加了已訓練的追捕強化學習模型的魯棒性。
聲明:
“用于形成追捕策略的強化學習模型訓練方法和訓練裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)