本發明提出一種基于SMILES的機器學習方法,包括:將SMILES字符串轉化為多個BASE64字符;通過One?Hot編碼獲取該BASE64字符的向量矩陣;將該向量矩陣作為訓練集,對機器學習模型訓練以進行化學任務。以及一種基于SMILES的機器學習系統,和一種數據處理裝置。采用了本方法預處理后得到的字符串相較于原SMILES包含了更多的信息,其不僅包含字符信息還包含字符之間的隱含信息。將本方法應用到基于SMILES的新型分子設計、分子屬性預測等化學任務中時,可以提取出更多的分子特征,提高了模型重構分子及分子屬性預測的精度。
聲明:
“基于SMILES的機器學習方法及系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)