在一個實施方式中,系統使用演員評判家強化學習(RL)模型來生成開放空間中的ADV的軌跡。系統感知ADV周圍的環境,包括一個或多個障礙物。系統基于感知的環境將RL算法應用于規劃軌跡的初始狀態,以基于ADV的地圖和車輛控制信息確定ADV達到多個軌跡狀態的多個控制。系統根據目標目的地狀態為每個控制確定通過RL算法的獎勵預測。系統通過最大化獎勵預測來從軌跡狀態生成第一軌跡,以根據第一軌跡來自動地控制ADV。
聲明:
“規劃用于自動駕駛車輛的開放空間軌跡的在線代理” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)