本申請公開了一種知識抽取方法、裝置、設備和介質,涉及自然語言處理技術。具體實現方案為:獲取輸入文本、預先訓練的預測器和獎勵擬合器;依據強化學習的方法,對輸入文本的輸出文本序列的狀態空間進行搜索,并在搜索過程中,根據預測器輸出的預測序列中與各時間步下每個狀態對應的下一個位置上所有單詞的概率,和獎勵擬合器對應擬合得到的獎勵,確定各時間步下每個狀態選擇的動作;根據對狀態空間的搜索結果,確定各時間步下的目標動作,并根據各時間步下的目標動作確定目標輸出文本序列。本申請實施例通過在強化學習中增加對狀態空間的探索,避免了預測階段模型被困在局部最小值,并能細化到字詞級別的評價,從而提高了模型的準確率和召回率。
聲明:
“知識抽取方法、裝置、設備和介質” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)