本發明公開了一種基于視覺信息的深度強化學習DDPG算法的機器臂抓取控制方法,旨在解決現有技術中機械臂工作場景靈活性差,場景變動后,人工示教調試慢,效率低等技術問題。該方法首先采用卷積神經網絡并融合卡爾曼濾波,對待抓取的物體進行實時檢測與跟蹤,并提取待抓取物體的平面3D位姿信息。設計一種基于末端執行器速度平滑約束的示教機制,解決經典DDPG網絡在初始化訓練初由于動作隨機導致的有效數據少,算法效率低的問題;并設計基于能量約束歸一化非線性獎勵函數,把輸入到深度強化學習網絡的數據解算至相同的區間,并且對變量進行非線性的函數映射,使得網絡梯度下降的時候速率更快,提高訓練效率和機械臂在靠近目標物體附近時產生的抖動問題;基于仿真環境對強化學習網絡進行預訓練,并對待抓取物體位姿進行顯示表達,使得該算法在新對象和環境中具有更強的泛化能力,將快速遷移到真實世界的機械臂上面。
聲明:
“基于視覺信息的深度強化學習DDPG算法的機械臂抓取控制方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)