本發明公開了一種基于記憶網絡的深度強化學習交通信號控制方法,包括:1、建立基于DQN算法的交通信號燈控制主網絡和目標值網絡;主網絡將t時刻狀態值st輸入LSTM中得到t+1時刻預測狀態值合并st和并輸入全連接網絡,得到預測Q值的最大值和對應動作2、初始化算法參數,采集路況信息建立狀態值st;3、將st輸入主網絡得到預測Q值取最大值的動作采用1?ε策略選擇動作at;4、執行動作at并計算獎勵rt和狀態st+1;5、在經驗池中隨機抽樣B個記錄,通過最小化損失函數訓練主網絡參數;6、定時更新目標值網絡參數,根據當前路況更新st,跳轉至步驟3繼續執行。該方法根據當前路況以及對當前路況的預測來計算Q值,能夠更精確地對交通信號進行控制。
聲明:
“基于記憶網絡的深度強化學習交通信號控制方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)