本發明提出一種基于模型預測與深度強化學習的熱水系統控制方法,該方法將監督學習與近端策略優化方法進行結合,用于控制隨機行為居住者的熱水系統。首先,所提方法中的監督學習包括循環門控單元、深度神經網絡判別器和時間序列預測模塊。輸入政策信息與行為信息,來預測未來一天居住者行為,并輸出未來一天近端策略優化方法接入熱水系統的概率。若概率小于閾值,則采用兩點控制策略并繼續訓練智能體;反之,則采用近端策略優化方法。其次,所提方法中的近端策略優化方法能學習隨機的居住者行為,無需特定調整即能應用在各種不同的居住場合,該方法能直接用于居住者家居,減少所需設備的安裝與調試的時間,并且該方法的整體框架解釋性比較優異。
聲明:
“基于模型預測與深度強化學習的熱水系統控制方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)