本發明公開了一種資源高效與服務質量感知的推理服務系統自適應調度方法,包括:深度學習模型自動選擇模塊利用協同過濾方法預測推理工作負載在不同深度學習模型上運行的推理性能;深度學習模型自動選擇模塊利用貪婪算法選擇滿足用戶服務質量需求的最優深度學習模型,并將最優深度學習模型部署至容器中為推理服務系統中的推理工作負載服務;協同管理模塊利用深度強化學習方法,根據推理工作負載的動態變化,協同地調整GPU資源分配和批量大小設置,本發明可根據用戶的需求自動地選擇深度學習模型,可根據推理工作負載的動態變化協同地調整GPU資源的分配和批量大小的設置。
聲明:
“資源高效與服務質量感知的推理服務系統自適應調度方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)