本說明書實施例提供一種更新業務預測模型的方法和裝置,其中業務預測模型包括通過強化學習實現的智能體。方法包括:獲取業務請求,根據業務請求確定環境的狀態特征;將狀態特征輸入智能體,智能體根據第一策略參數下的策略函數,確定對應的業務響應作為當前動作。然后,向環境輸出業務響應,基于環境反饋確定當前獎勵。接著,根據狀態特征,當前動作和當前獎勵,以損失函數最小化為目標,確定更新后的第二策略參數,其中損失函數與第一目標項負相關,所述第一目標項包括,采用混合高斯模型GMM,將第二策略參數下的策略函數表示為K個高斯分布的組合的第一表達式;于是,可以用第二策略參數下的策略函數,更新智能體。
聲明:
“更新業務預測模型的方法及裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)