在傳統的策略搜索強化學習方法中,為了快速得到有效的策略,策略模型一般都是為特定任務專門設定的低維空間策略模型,而這種策略模型在實際應用表現力十分有限,泛化能力差,很難適應其他的任務。根據以上問題,本發明提出一種具有自適應能力的高效強化學習策略模型,所提出的策略模型以感知狀態的低維表示及智能體對自身行動所引發的環境變化的預測作為策略的輸入。這種策略所建立的策略模型具有較高的泛化能力,即使任務發生了細微變化,智能體仍然能夠根據自身對未來的預測進行自適應地調整策略,從而得到泛化能力強的高效策略。
聲明:
“具有自適應能力的高效強化學習策略模型” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)