一種基于強化學習的Baxter機械臂軌跡跟蹤控制方法,首先對Baxter機械臂前三個關節進行系統辨識,確定其連續時間的狀態空間方程并將之離散化,得到離散的狀態空間模型,該步驟僅用于在仿真時獲取機器人前三個關節下一時刻的位置和速度跟蹤誤差;首先給定機械臂前三個關節一個初始狀態,按照固定的采樣時間測量并記錄三個關節下一時刻的位置和速度跟蹤誤差,對采集到的位置和速度信息預處理之后使用遞歸的最小二乘法計算最優控制策略所對應的權值矩陣H,最后根據權值矩陣計算出下一時刻的最優反饋控制。本發明自動適應模型改變帶來的模型誤差,提高機器人在日常使用中的準確性。
聲明:
“基于強化學習的Baxter機械臂軌跡跟蹤控制方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)