本發明公開一種基于異步深度強化學習的無線傳感器網絡拓撲優化方法,利用無標度網絡模型的規則生成初始化的無線傳感器網絡拓撲結構;壓縮無線傳感器網絡拓撲結構;初始化異步深度強化學習模型;訓練與測試階段;在訓練階段,首先對無線傳感器網絡拓撲結構進行序列化,用一個行向量來表示無線傳感器網絡拓撲結構;然后,網絡拓撲結構行向量分別輸入到不同的本地網絡訓練模型中;其次,本地網絡訓練模型中包含兩個神經網絡模型,分別是動作選取策略網絡和策略評估網絡;測試階段,全局網絡訓練模型對測試數據集進行測試評估;重復步驟1、2、3和4;直至最大的迭代次數。
聲明:
“基于異步深度強化學習的無線傳感器網絡拓撲優化方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)