本發明實施例涉及強化學習技術領域,具體涉及路徑規劃模型的訓練、路徑規劃方法、裝置及電子設備,其中,所述訓練方法包括:獲取樣本數據以及剩余決策次數,所述樣本數據包括當前時刻的環境狀態以及損失計算參數;將當前時刻的環境狀態以及剩余決策次數輸入路徑規劃模型,并利用剩余決策次數對路徑規劃模型預測結果中的非空動作進行約束,以輸出當前時刻的執行動作并更新所述剩余決策次數,所述路徑規劃模型是基于強化學習模型建立的;根據當前時刻的執行動作以及損失計算參數進行損失函數的計算,并基于計算結果更新路徑規劃模型的參數,以確定目標路徑規劃模型。將決策次數作為約束條件,使得訓練得到的目標路徑規劃模型能夠應用在決策次數受限的場景下。
聲明:
“路徑規劃模型的訓練、路徑規劃方法、裝置及電子設備” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)