- 文本數據挖掘:基于R語言
- 黃天元編著
- 1380字
- 2021-07-08 12:07:00
1.4 文本數據挖掘軟件工具概覽
能夠完成文本數據挖掘任務的計算機軟件非常多,包括R、Python、SPSS、SAS、WordStat等。軟件可以分為專用軟件和開源軟件兩種,其中前者大多是商業集團以盈利為目的開發、維護并進行銷售的專用軟件,而后者則是被授權可以自由使用、賦值和修改的計算機軟件,常由開源社區自發維護。專用軟件往往需要用戶為其服務付費,因此軟件的可獲得性較弱,相對來說不利于更廣泛的群體進行開放交流與再創造,而開源軟件則相反,不僅應用廣泛而且利于交流。下面,對常用的開源文本數據挖掘工具進行簡要介紹。
● carrot2:一個開源的搜索結果聚類引擎,它可以自動將文檔歸為不同的主題類別。該工具支撐了大量科學研究,早在2004年就獲得EASA(European Academic Software Awar)競賽中獲獎,并為eTools.ch、JobVille等多個搜索引擎提供技術支持,其相關信息可參考https://project.carrot2.org/。
● GATE:一個用于開發和部署處理自然語言的軟件架構。它可以用于涉及人類自然語言的各類計算任務。GATE擅長處理不同大小和形式的文本,因此用戶社區也非常多樣化,相關信息可參考https://gate.ac.uk/。
● OpenNLP:Apache OpenNLP庫是基于機器學習的工具箱,專門用于處理自然語言文本,具有分詞、打標簽、命名實體識別在內的各類NLP功能,由志愿者開發并維護,相關信息可參考http://opennlp.apache.org/。
● Voyant Tools:一個基于Web的文本閱讀和分析環境。這是一個學術項目,旨在促進數字人文學科的學生和學者以及廣大公眾的閱讀和口譯實踐。它能夠協助教學人員來教授如何利用計算機輔助科學研究,同時可以對來源網絡的文本進行分析研究。其應用接口為https://voyant-tools.org/,相關使用文檔可參考https://voyant-tools.org/docs/#!/guide/about。
● KH Coder:用于定量內容分析或文本數據挖掘的免費軟件,常用于計算語言學。支持的分析語種包括加泰羅尼亞語、中文(簡體)、荷蘭語、英語、法語、德語、意大利語、日語、韓語、葡萄牙語、俄語、斯洛文尼亞語和西班牙語文本,相關使用文檔可參考http://khcoder.net/en/。
● Python:一種廣泛使用的解釋型、高級、通用型編程語言,可在幾乎所有操作系統上運行。其功能強大而豐富,尤其擅長于機器學習、特別是深度學習領域。Python的相關技術文檔可參考https://www.python.org/。
● R:用于統計計算和圖形的免費軟件環境,它可以在各種UNIX平臺、Windows和mac OS上編譯并運行。R的語法靈活而自由,功能廣泛而強大,是數據科學中通用的語言環境,尤其擅長探索性數據分析和數據可視化,相關信息可參考https://www.r-project.org/。
以上所介紹的工具中,R與Python由于用戶群體廣泛,涉及功能具有重疊部分,經常被同時列出并進行比較。Python的用戶群體一般都具有計算機科學的背景,因此其社區開發的核心群體由計算機科學家構成,對文本數據挖掘工具的開發往往是從底層進行思考的,如計算性能、與硬件的關聯等,比較有名的自然語言處理工具包括spaCy、NLTK等。而R語言的社區則以統計學家為主,開發人員的背景則往往更加豐富,包括生物學、心理學以及很多人文學科的開發者,因此開發會更加偏好任務導向。R中較為流行的工具包括quanteda、tidytext等,相關的內容可以參考CRAN官方網站的介紹https://cran.r-project.org/web/views/NaturalLanguageProcessing.html。從任務完成的角度而言,兩種語言并沒有太大的差別。但是由于兩種工具具有不同的歷史發展根源和社區構成特點,導致在部分資源的分布上不均衡。例如,由于詞嵌入涉及計算機科學中的深度學習內容,因此Python的資源會更加豐富。而面向特定學科問題的文本研究工具,R語言更為豐富。但是兩種工具都在不斷地發展變化中,它們互相學習、互相借鑒,在合作競爭關系中不斷完善彼此。本書將會以R語言為例,因為R在近年的發展中更加注重引導初學者的入門,讓來自不同層次的用戶都能夠從中受益。
- 在你身邊為你設計Ⅲ:騰訊服務設計思維與實戰
- 達夢數據庫編程指南
- Architects of Intelligence
- Python金融數據分析(原書第2版)
- “互聯網+”時代立體化計算機組
- Proxmox VE超融合集群實踐真傳
- 淘寶、天貓電商數據分析與挖掘實戰(第2版)
- Google Cloud Platform for Developers
- MySQL技術內幕:SQL編程
- 企業主數據管理實務
- Expert Python Programming(Third Edition)
- Hands-On System Programming with C++
- Delphi High Performance
- 一本書讀懂大數據
- Arquillian Testing Guide