本發明公開了一種基于強化學習的零樣本學習模型的訓練方法及裝置、計算機可讀存儲介質,該方法包括以下步驟:獲取已訓練的分類模型;固定已訓練的分類模型的參數,將訓練數據輸入已訓練的分類模型;從已訓練的分類模型獲取訓練數據經特征提取后得到的特征數據,將特征數據轉換為狀態向量;將狀態向量輸入基于強化學習的動作預測模型,根據當前的獎賞值進行預測得到動作預測結果并執行相應的動作,以對輸入的訓練數據進行調整;通過損失函數優化基于強化學習的動作預測模型的參數,得到已訓練的基于強化學習的動作預測模型,再與已訓練的分類模型組成已訓練的基于強化學習的零樣本學習模型。本發明實現了進一步提高零樣本學習模型的性能的效果。
聲明:
“基于強化學習的零樣本學習模型的訓練方法及裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)