本發明公開了一種基于強化學習的智能體探索未知環境方法,通過制定局部信息提取規則,計算環境參數特征表示中的局部信息和對環境參數特征表示進行預測的預測特征表示中的局部信息之間的差異度,構建了深度強化學習的內部獎勵函數,該種方法構建的獎勵函數能夠賦予智能體感性選擇能力,也就是具備人類在看到一部分環境特征的時會有感興趣的感受的能力,使得智能體在環境探索中可以沿著感興趣的環境特征進行探索,結構化了智能體的環境探索方式,同時,放大了智能體環境特征表示局部信息和實際環境狀況的關聯程度,使得智能體的行為意圖可預測,有利于在工業領域對智能體進行把控,推動深度強化學習在工業領域的落地。
聲明:
“基于強化學習的智能體探索未知環境方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)