本申請涉及一種基于深度強化學習的資源動態調度方法。所述方法包括:根據動態調度標準輸入的數據結構對動態任務調度需求進行預處理,得到動態調度的標準輸入數據;通過動態任務調度中預先設置的基本原則構建影響域評價函數,將影響域評價函數作為動態調度智能體模型與環境交互的獎勵函數;利用獎勵函數和動態調度的標準輸入數據以及深度Q學習框架對動態調度智能體模型進行強化學習離線訓練,得到訓練好的動態調度智能體模型;根據訓練好的動態調度智能體模型對測試集中新到達的動態任務進行在線快速資源調度,得到新調度方案包。采用本方法能夠提高資源動態調度效率。
聲明:
“基于深度強化學習的資源動態調度方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)