本發明涉及一種邊緣計算環境下多目標任務調度方法及裝置,其特征在于,其包括步驟:構建用于對邊緣服務器中多個服務請求的執行順序進行決策的指針網絡模型,且使所述指針網絡模型的結果取樣策略將服務請求的平均等待時間作為優化指標;將邊緣服務器的資源利用率與運行時間整合為一個優化目標作為強化學習的獎勵函數對指針網絡模型進行訓練。本發明實施例將等待時間優化目標融合在模型決策內部,從而達到多目標優化的效果,不需要對權重取值進行大量的實驗分析,對指針網絡的模型訓練更加有效。同時,基于強化學習的指針網絡模型,無需像傳統的啟發式算法需要長時間迭代,可以做到迅速決策,符合邊緣環境下對時延敏感的要求。
聲明:
“邊緣計算環境下多目標任務調度方法及裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)