本發明公開了一種基于聯邦多智能體強化學習的車聯網邊緣資源分配方法,具體為:輸入車聯網環境,初始化智能體本地Q網絡和聯邦網絡參數,并對優化問題建模;根據智能體能否獲得獎勵分為α、β兩類,在當前時隙內兩類車輛智能體分別觀測本地狀態并輸入Q網絡的;對Q網絡輸出進行加密處理,并通過聯邦網絡輸出兩類車輛智能體的聯合動作決策;之后α車輛智能體得到系統反饋的全局獎勵,同時緩存池存儲當前時隙的樣本數據;當樣本數量足夠時,α型和β型車輛智能體分別更新本地Q網絡以及聯邦網絡的參數;當前訓練回合結束后,重置車聯網環境,開始下一個回合的訓練。本發明在隱私保護的前提下提升了車聯網連通性,同時降低了切換開銷以及能量損耗。
聲明:
“基于聯邦多智能體強化學習的車聯網邊緣資源分配方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)