本申請公開了一種智能交互模型的訓練方法、交互方法、裝置及設備,該訓練方法獲取包括多個第一輸入語句的第一輸入信息,將第一輸入語句輸入到智能交互模型中,通過各個子交互模型對第一輸入語句進行交互預測,得到多個初始輸出語句,并通過中控子模型根據第一輸入語句從多個初始輸出語句選擇對應的目標輸出語句,對若干組第一輸入語句和第一輸入語句對應的目標輸出語句進行匹配分析,得到匹配評分;并根據匹配評分確定獎勵值,通過獎勵值對中控子模型進行強化學習訓練,得到訓練好的智能交互模型。該訓練方法可以提高智能交互模型處理多輪交互任務的性能,有利于改善用戶體驗。本申請可廣泛應用于人機交互技術領域內。
聲明:
“智能交互模型的訓練方法、交互方法、裝置及設備” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)