本發明屬于機器人控制技術領域,公開了一種遷移強化學習控制方法、系統、存儲介質、設備及應用,采用交互漸進網絡學習,先對人的評估以反饋網絡進行建模預訓練,用于在訓練策略時預測人的評估;對使用漸進式網絡遷移后的策略進行訓練時,同時使用人的實時評估和反饋網絡的預測作為獎勵函數。其允許人類訓練者對狀態動作提供評估,由狀態動作對序列{(s0,a0),...,(sn,an)}組成,從評估中訓練人的反饋網絡并且該網絡被當作漸進式網絡遷移后的策略訓練中的獎勵函數。本發明能夠有效的對不同環境的策略進行遷移;在具有離散和連續動作的任務之間,即使當漸進網絡學習從具有高維狀態空間的任務遷移到那些具有低維狀態空間的任務效果很小時,能更好、更快地進行遷移學習。
聲明:
“遷移強化學習控制方法、系統、存儲介質、設備及應用” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)