提供了采用基于空間和時間注意力的分層車道變換策略的深度強化學習來控制自主車輛的系統和方法。執行器?評價網絡架構包括:執行器網絡,其處理從環境接收的圖像數據以將車道變換策略作為分層動作的集合來學習;以及評價網絡,其評估車道變換策略以計算損失和梯度來預測動作值函數(Q),其用于驅動學習車道變換策略以及更新其參數。執行器?評價網絡架構實施空間注意力模塊以選擇圖像數據中重要的相關區域,以及時間注意力模塊以學習要應用于過去的圖像數據幀的時間注意力權重,從而指示在決定選擇哪個車道變換策略時的相對重要性。
聲明:
“用于控制自主車輛的分層車道變換策略的基于空間和時間注意力的深度強化學習” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)