本發明公開一種基于深度強化學習的自動駕駛車輛超車決策方法。該方法包括:基于演員評論家架構構建強化學習網絡,該強化學習網絡包含策略網絡、價值網絡和Q值網絡,其中策略網絡通過對駕駛環境的觀測產生連續的駕駛動作;車輛將所述策略網絡產生的連續駕駛動作應用于駕駛決策任務中,并通過與駕駛環境的交互,以實現無碰撞、連續高速超車為目標,在獎勵函數指導下進行自動駕駛,其中所述駕駛決策任務包括第一子任務和第二子任務,第一子任務是在單車場景中實現自動駕駛車輛高速的駕駛,第二子任務是在多車環境中實現超車任務,第二子任務的初始策略是第一子任務得到的最優策略。利用本發明能夠實現無碰撞的、連續高速超車任務。
聲明:
“基于深度強化學習的自動駕駛車輛超車決策方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)