本發明提供了一種基于強化學習的網絡輿情裝置的調度方法,包括:S1:建立一個深度強化學習模型;S2:調度一個網絡輿情裝置執行目標操作行為并記錄所述操作行為;S3:在進行所述S2的調度前先根據所述S1中的深度強化學習模型對所述網絡輿情裝置的狀態進行判斷,然后所述網絡輿情裝置執行操作;S4:保存所述S3執行完成時的所述網絡輿情裝置的狀態記錄并以此計算出獎勵分數;S5:根據所述S4中得到的所述獎勵分數計算損失值以更新所述深度強化學習模型的參數;S6:根據所述S5中更新后的所述深度強化學習模型進行網絡輿情預測。
聲明:
“基于強化學習的網絡輿情裝置的調度方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)