方法、系統和裝置,包括編碼在計算機存儲介質上的計算機程序,用于預測在具有多個代理的環境中的代理的動作或對所述代理的影響,特別是用于強化學習。在一個方面,關系前向模型(RFM)系統接收表示多個代理中的每個代理的代理動作的代理數據,并實現:編碼器圖神經網絡子系統,將代理數據處理為圖數據以提供編碼后的圖數據;循環圖神經網絡子系統,處理編碼后的圖數據以提供處理后的圖數據;解碼器圖神經網絡子系統,解碼處理后的圖數據以提供解碼后的圖數據;以及輸出,提供與一個或更多個代理的預測動作有關的、解碼后的圖數據的節點屬性和/或邊屬性的表示數據。強化學習系統包括RFM系統。
聲明:
“用于多代理環境中的行為預測和強化學習的圖神經網絡系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)