本申請實施例適用于人工智能技術領域,提供了一種決策模型訓練方法、裝置、終端設備及存儲介質,該方法包括:獲取仿真系統處于任一故障下的第一狀態信息;仿真系統為基于真實系統的運行產線環境預先搭建的虛擬系統;將第一狀態信息輸入至初始決策模型中,得到初始決策模型預測的目標恢復動作;獲取仿真系統執行目標恢復動作后的第二狀態信息,以及仿真系統的系統健康度;將第一狀態信息、目標恢復動作、第二狀態信息以及系統健康度作為一組仿真經驗數據;根據仿真經驗數據,對初始決策模型進行強化學習訓練,得到目標決策模型。采用上述方法訓練決策模型可以提高模型的訓練效率。
聲明:
“決策模型訓練方法、裝置、終端設備及存儲介質” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)