本申請實施例公開了用于生成模型的方法和裝置。該方法的一具體實施方式包括:獲取樣本集,樣本集中包括樣本語句以及與樣本語句對應的標注知識;從樣本集中選取樣本,以及執行以下訓練步驟:樣本語句輸入第一初始模型,生成與樣本語句對應的第一預測知識;將第一預測知識輸入第二初始模型,生成與第一預測知識對應的第一預測語句;將標注知識輸入第二初始模型,生成與標注知識對應的第二預測語句;將第二預測語句輸入第一初始模型,生成與第二預測語句對應的第二預測知識;確定第一獎勵信號;根據所確定的第一獎勵信號利用強化學習方法訓練得出第一模型。該實施方式豐富了模型的生成方式。
聲明:
“用于生成模型的方法和裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)