本發明公開了一種機器人運動控制方法、機器人、計算機裝置和存儲介質,機器人運動控制方法包括對獎勵值訓練集和獎勵值測試集進行孿生學習,獲得最優獎勵值,根據最優獎勵值、動作集合、轉移概率集合以及機器人在第一時刻的反饋量,通過逆向強化學習算法進行求解,根據求解結果控制機器人在第二時刻的動作等步驟。本發明能夠在對工作環境先驗知識不足的情況下,輸出最優獎勵值,使得逆向強化學習算法能夠基于最優獎勵值尋找最優動作策略,以提高尋找最優動作策略的速度,使機器人能在先驗知識不足的情況下快速適應復雜的環境,提高控制精度以及靈活性,實現對機器人進行緊急避障以及全局路徑最優規劃等控制。本發明廣泛應用于機器人技術領域。
聲明:
“機器人運動控制方法、機器人、計算機裝置和存儲介質” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)