本發明屬于室內定位技術領域,具體是涉及一種面向異構環境的基于深度強化學習的軌跡定位方法。本發明充分利用了環境中的觀測和智能體自身的歷史動態信息,以智能體的位置、環境中具有設備異構性的RSS向量和過去n個時刻的歷史動作為狀態,用于動作的選擇。再基于近場條件選擇強于RSS閾值對應的APs,以構成選定的APs集合,再根據集合的大小計算最終獎賞值。依據MDP中設計的各要素對智能體的位置進行估計,并以獎賞值為學習導向基于經驗重放機制和目標網絡進行深度強化學習算法的迭代訓練。本發明基于路徑損耗模型得到具有設備異構性的仿真RSS數據,實驗結果證明本發明所提方法能夠實現較高的定位精度,并對處理異構RSS數據也具有一定的魯棒性。
聲明:
“面向異構環境的基于深度強化學習的軌跡定位方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)