本發明提供了一種基于文本挖掘和自然語言處理的地質報告文本可視化方法;包括首先,利用自然語言處理技術對地質報告進行數據預處理;其次,基于構建的停用詞詞庫對文本中的停用詞進行剔除;然后,統計相鄰兩個詞之間共同出現的次數,并生成共現矩陣;最后,進行了詞頻統計、改進的TF?IDF關鍵詞提取等,并分別進行了詞頻統計可視化、關鍵詞詞云可視化、中心性分析可視化、多尺度關鍵詞分析可視化等。本發明提出的地質報告文本可視化流程能充分發現和挖掘地質文本隱含的信息,能迅速從可視化結果中獲取關鍵信息,使繁雜的文本信息能以非常直觀的形式進行展示。本發明所提出的可視化流程對工程報告類文本具有較高的適用性和參考價值。
聲明:
“基于文本挖掘和自然語言處理的地質報告文本可視化方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)