- 文本數(shù)據(jù)挖掘:基于R語言
- 黃天元編著
- 215字
- 2021-07-08 12:07:06
第3章 從基礎(chǔ)做起1——字符串的基本處理
本章概述:
我們已經(jīng)知道R語言中有字符型的數(shù)據(jù)結(jié)構(gòu),字符串是指由多個(gè)單字符構(gòu)成的長(zhǎng)文本,這種非結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)中往往包含著價(jià)值。本章將會(huì)闡述如何在R中對(duì)這些字符串進(jìn)行基本的清洗與統(tǒng)計(jì),主要使用stringr包中的函數(shù)。學(xué)習(xí)完本章后,讀者將會(huì)習(xí)得如何對(duì)字符串進(jìn)行拼接、拆分、計(jì)數(shù)等基本操作,從而為后面學(xué)習(xí)更加高級(jí)的文本分析實(shí)現(xiàn)奠定基礎(chǔ)。在學(xué)習(xí)本章之前,需要先加載stringr包,這個(gè)包是tidyverse包的一部分,直接加載tidyverse包即可。

推薦閱讀
- Redis使用手冊(cè)
- 云數(shù)據(jù)中心基礎(chǔ)
- Microsoft SQL Server企業(yè)級(jí)平臺(tái)管理實(shí)踐
- 深入淺出數(shù)字孿生
- Mockito Cookbook
- 數(shù)據(jù)驅(qū)動(dòng)設(shè)計(jì):A/B測(cè)試提升用戶體驗(yàn)
- 跟老男孩學(xué)Linux運(yùn)維:MySQL入門與提高實(shí)踐
- gnuplot Cookbook
- 探索新型智庫(kù)發(fā)展之路:藍(lán)迪國(guó)際智庫(kù)報(bào)告·2015(上冊(cè))
- Hadoop集群與安全
- SQL Server 2012實(shí)施與管理實(shí)戰(zhàn)指南
- Access數(shù)據(jù)庫(kù)開發(fā)從入門到精通
- The Natural Language Processing Workshop
- 從Lucene到Elasticsearch:全文檢索實(shí)戰(zhàn)
- MySQL性能調(diào)優(yōu)與架構(gòu)設(shè)計(jì)