本發明屬于人工智能技術領域,具體的說是涉及一種基于深度強化學習的網絡自主智能管控方法。本發明首先構建網絡拓撲,然后引入CNN、LSTM層和延遲更新策略構建基于DDPG強化學習算法的路由決策模型,最后對基于深度強化學習的路由決策模型進行迭代訓練。在每次迭代訓練中,智能體根據測量得到的網絡狀態和神經網絡獲得輸出的動作,即一組鏈路權重,并根據鏈路權重使用最短路徑算法計算業務的路由。根據路由計算結果,智能體下發流表,并獲取業務的端到端時延和丟包率計算此次迭代的獎勵值。算法具有良好的收斂性,能夠有效降低業務的端到端時延和丟包率。
聲明:
“基于深度強化學習的網絡自主智能管控方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)