本申請實施例公開一種基于強化學習的聯合決策方法及裝置。所述方法包括A1、通過演說家?評論家網絡的演說家網絡根據輸入的環境狀態觀測值,輸出決策變量的動作概率分布;A2、通過所述演說家?評論家網絡的評論家網絡根據輸入的環境狀態觀測值,輸出當前狀態的價值估計;A3、根據所述決策變量的動作概率分布和所述當前狀態的價值估計,得到優勢函數的估計值;A4、使用所述演說家?評論家網絡和基于所述優勢函數的策略梯度算法,利用過往的內容訪問數據進行訓練,得到深度強化學習的模型,從而實現輸出聯合決策策略。所述裝置可實現所述方法。本申請實施例可在不需要先驗信息的情況下最大化使用者的長期利益。
聲明:
“基于強化學習的聯合決策方法及裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)