書名：文本數據挖掘：基于R語言
作者名：黃天元編著
本章字數： 2244字
更新時間： 2021-07-08 12:06:59

前言

文本作為重要的非結構化數據之一，其相關方面的數據挖掘在醫療健康、市場營銷、電商媒體、數字人文等各種場景中都有重要的應用。例如，對電子病歷的規范化文本數據進行提取，可以量化病人的診斷結果，提出合理建議；在點評類平臺中對消費者的評論進行關鍵詞提取，可以對店家的服務進行評估；在公共社交平臺上對某一個話題的文本進行提取和情感量化，可以獲知大眾對某一個話題的看法，把握相關輿情。這些應用都有著巨大的價值提升潛力，而要發掘這些潛力則需要掌握體系化的文本數據挖掘方法。

對于文本數據挖掘工具而言，除了基于圖形交互界面的軟件（如Tableau）外，還有基于命令行的通用開源軟件，如R和Python。雖然利用Python來做自然語言處理和文本數據分析的資料非常多，但是隨著文本數據挖掘日漸普及，各行各業的科研人員和從業者都需要發掘文本的價值，并希望快速習得一些實用的工具來對文本進行分析。Python需要初學者具備更多的計算機編程知識，才能發揮其效力；而R語言作為一個面向統計和可視化的開源工具，逐漸受到更多來自工業界和科研界的認可。R語言的開發者在設計工具的時候通常認為用戶也沒有太多的計算機編程基礎，所以在各種軟件包中通過提供“傻瓜式”的函數操作，讓使用者僅僅通過復制粘貼較少的代碼，就能夠直接對自己的數據進行復雜的數據操作與分析，這是R語言的一大特點。

本書立足于R語言在文本數據挖掘領域的發展前沿，對文本數據挖掘的基本概念和實現方法進行了系統介紹，并利用大量實際案例和通用代碼來引導讀者進行實踐和思考。通過閱讀本書，讀者可以循序漸進地掌握文本數據挖掘中的各種概念、方法和工具，完成日常學習和工作中的文本分析任務。

本書內容

第1章，走進文本數據挖掘。對文本數據挖掘進行了綜合的介紹，內容包括什么是文本數據挖掘、為什么要進行文本數據挖掘和文本數據挖掘的基本框架，并對文本數據挖掘的常用軟件工具進行了概述。

第2章，文本數據挖掘利器——R語言。向初學者介紹R語言的基本使用方法，包括軟件的安裝、環境的配置、數據結構與類型、編程基礎和數據操作方法。

第3章，從基礎做起1——字符串的基本處理。主要利用stringr包作為工具，講述各式各樣的字符串操作及其在R中的實現方法。

第4章，從基礎做起 2——用好正則表達式。介紹了正則表達式的基本概念，包括通配符、簡寫字符集和反向引用等，并結合實例引導讀者進行實踐。

第5章，步入正題——導入各類文本數據。介紹了如何把本地各種格式的文本數據導入到R環境中，并講述了如何進行編碼格式的識別和文本數據結構的轉化。

第6章，更進一步——對各類文本數據進行預處理。針對文本數據清洗這一主題，對文本切分、去除停用詞、詞干提取、詞性標注等預處理任務進行了介紹。

第7章，上手文本數據挖掘——文本特征提取的4種方法。主要介紹了文本特征提取的方法，包括TF-IDF特征提取、各種詞嵌入的方法以及文檔向量化。

第8章，文本分類——基于機器學習的方法。從無監督和有監督兩個方面，介紹了文本數據分類的基本方法，并給出相關的實踐代碼。

第9章，深入理解文本內涵——文本情感分析。分別對如何進行英文情感分析和中文情感分析進行了介紹，并給出通用案例和系統實現過程。

第10章，文本數據的直觀表達——文本可視化。聚焦于文本可視化，介紹了如何利用文本信息繪制條形圖、克利夫蘭點圖、矩形樹狀圖、詞云圖、詞匯位置分布圖、網絡圖等。

第11章，舉一反三——文本數據挖掘項目實踐。利用 3個典型的文本分析案例，來引導讀者對情感分析、文本分類和關鍵詞提取進行學習和實踐。

本書特點

● 深入淺出，簡單易學：本書不需要讀者具有文本挖掘或R語言的基礎知識，循序漸進地帶領讀者掌握文本數據挖掘中的各種知識以及文本分析在R語言中的實現方法。

● 代碼豐富，實踐性強：本書幾乎在所有文本分析任務中都提供了簡潔可行的R語言實現代碼，讀者可以通過實踐來體會每一步文本挖掘操作。通過反復練習，可以習得其中的技巧，并運用在自己的文本數據挖掘任務中。

● 體系完備，系統性強：本書介紹了文本數據挖掘基本任務的方方面面，從文本數據的導入和預處理到分析、建模和可視化。有利于讀者對整體知識結構的把握，從而在解決文本數據挖掘問題的時候具有更加全面而細致的考慮。

● 內容新穎，緊跟前沿：文本數據挖掘作為經典的知識體系不會過時，但是軟件工具卻在一直在更新迭代。本書參考了大量近 3年內的R軟件包及其幫助文檔，緊跟技術發展潮流，讓讀者能夠習得較為先進的實現技術，提高編寫代碼的效率。

適用對象

本書適合需要對文本數據挖掘進行了解和運用的在校大學生、科研人員和數據分析從業者，尤其適合初學者入門，同時能夠為來自各行各業（新聞媒體、人文社科、醫療健康、生物醫藥、環境生態、市場營銷等）對文本數據分析感興趣的廣大讀者提供技術參考。

本書作者

本書在編寫過程中參考了國內外大量的文本挖掘與R語言實現的相關資料。本書的完成首先要感謝R語言開源社區，他們不知疲倦的努力和無私的分享讓R語言在文本數據挖掘中越發強大。同時，需要對復旦大學圖書館情報研究部進行致謝，我在這里擔任助管期間得到了很多鍛煉和啟示。還要感謝謝琳老師、趙斌教授和中國科學院文獻情報中心科學計量小組在本書編寫期間對我的支持。感謝機械工業出版社各位編輯專業的工作。最后，感謝我的父母，無論在任何時候都給予我無私的愛。

由于作者水平有限，書中難免出現錯誤和不足之處，敬請廣大讀者批評指正。希望本書能夠讓各位讀者從零到一、從無到有地獲知文本數據挖掘的基本概念，并習得利用R語言進行文本數據挖掘的技術技巧。

黃天元

官术网_书友最值得收藏!

文本數據挖掘：基于R語言

前言