本發明涉及提供強化學習代理和用其控制自主交通工具的方法和裝置。與使用強化學習代理來控制自主交通工具相關的方法包括多個訓練會話,其中該代理與環境交互,多個訓練會話分別具有不同初始值并且產生取決于狀態(s)和動作(a)的狀態動作分位數函數方法進一步包括第一不確定性估計,其基于針對狀態動作對評估的多個狀態動作分位數函數的平均數的、與相對于分位數τ的變異性相關的變異性測量和第二不確定性估計,其基于針對狀態動作對評估的所述多個狀態動作分位數函數的、與集合變異性相關的變異性測量狀態動作對可以與在執行之前驗證的試驗性決策相對應,或與代理對指導附加訓練的可能決策相對應。
聲明:
“提供強化學習代理和用其控制自主交通工具的方法和裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)