本申請提供了一種乒乓球機器人的深度強化學習旋轉速度預測方法及系統,預測方法包括將等時間間隔的乒乓球來球位置序列歸一化;將歸一化序列輸入到深度LSTM網絡中;將得到的LSTM的狀態向量輸入到入射旋轉估計深度神經網絡中,得到入射旋轉速度;計算深度強化學習的獎勵反饋;將當前次擊球過程的乒乓球來球位置序列、乒乓球入射旋轉速度和獎勵反饋組合成一次擊球記憶,存入記憶庫中;從記憶庫中隨機選取至少一條記憶,將LSTM的狀態向量和乒乓球入射旋轉速度輸入到獎勵反饋估計深度神經網絡中,輸出獎勵反饋估計,并對入射旋轉估計深度神經網絡和獎勵反饋估計深度神經網絡進行反向傳播和參數更新。本申請應對旋轉球時能夠準確回球。
聲明:
“乒乓球機器人的深度強化學習旋轉速度預測方法及系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)