本發明公開了一種基于深度強化學習的實時擁塞控制方法,涉及計算機網絡與人工智能的交叉領域。該方法包括構建仿真網絡,在仿真網絡中按照設定的每回合時間長度,來構建數據傳輸程序;初始化強化學習智能體及內部神經網絡,采集網絡統計信息及動作滯后時間以訓練滯后預測模型,接著固定滯后預測模型,用強化學習算法訓練神經網絡,最后將神經網絡模型部署至目標網絡環境中,讓智能體能根據當前的網絡狀態數據動態地調整擁塞控制窗口的大小,在數據傳輸過程中取得更高的吞吐量和更低的往返時延。本發明以擴展狀態空間和單獨預測滯后時間的方式解決了應用深度強化學習至擁塞控制時的動作滯后問題,可以兼顧擁塞控制效果和較高的網絡性能。
聲明:
“基于深度強化學習的實時擁塞控制方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)