本發明提供的基于深度強化學習的機器人行走控制方法,設置獎勵機制;構建多專家神經網絡;所述多專家神經網絡包括一個頂層網絡和至少一個底層網絡;利用所述獎勵機制和采集的樣本數據對頂層網絡進行訓練;在機器人運行過程中,頂層網絡根據訓練結果和機器人實時測量到的數據對底層網絡的輸出進行融合,并根據融合結果輸出控制指令,將所述控制指令發送給機器人,控制機器人中關節的電機。該方法可以在不同的專家網絡之間進行連續切換,增加了組合的多樣性,改善現有機器人運動步態非對稱、非自然的缺陷。該方法將人類動作捕捉獲得的行走步態作為訓練學習的參考對象,能讓多專家神經網絡更快地收斂到像人一樣自然的周期性對稱行走策略。
聲明:
“基于深度強化學習的機器人行走控制方法、系統及介質” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)