- 文本數據挖掘:基于R語言
- 黃天元編著
- 477字
- 2021-07-08 12:07:07
3.3 字符串的提取
對于特定字符串的提取,有兩種方式:一種是根據字符串所在位置進行提取,可以用str_sub函數實現;另一種是根據字符串的內容進行提取,可以使用str_extract函數實現。下面進行分別介紹。
1.根據字符串位置信息進行提取
如果我們現在要提取“上海自來水來自海上,山西煤運車煤運西山”中第1到5個字符,那么可以使用str_sub函數實現。

這樣就把“上海自來水”提取了出來。其實,函數中的1和5分別傳遞給了start和end兩個參數,一個表示起始位置,一個表示終點位置。起始位置和終點位置可以有負值,代表終結點在倒數第幾個字符,例如我們要提取倒數4個字符。

這樣我們就將起始位置放在了倒數第四,終點位置放在了倒數第一,把最后的4個字符提取了出來。
2.根據字符串內容進行提取
除了按照位置信息進行提取之外,還能夠直接按照內容特征進行提取。例如把“山西”提取出來,可以用str_extract函數實現。

如果提取值不在,則會返回缺失值NA。

這種提取方式仿佛是在識別字符串中是否包含相關子串,在學習了正則表達式之后,就能夠根據字符特征來進行提取,這樣將會給這個函數賦予特殊的意義,從而有效發揮它的功能。正則表達式的使用將會在下一章節中介紹。
推薦閱讀
- 數據要素安全流通
- 信息系統與數據科學
- Voice Application Development for Android
- Microsoft Power BI數據可視化與數據分析
- 智能數據分析:入門、實戰與平臺構建
- Oracle 12c云數據庫備份與恢復技術
- SQL應用及誤區分析
- 科研統計思維與方法:SPSS實戰
- Mastering LOB Development for Silverlight 5:A Case Study in Action
- 區域云計算和大數據產業發展:浙江樣板
- 菜鳥學SPSS數據分析
- Microsoft Dynamics NAV 2015 Professional Reporting
- 工業大數據融合體系結構與關鍵技術
- 代碼的未來
- 數據庫技術與應用:SQL Server 2008