- 信息內容安全管理及應用
- 李建華主編
- 210字
- 2021-10-27 15:46:41
第4章 文本信息的特征抽取
文本的表示及其特征項的抽取是文本挖掘、信息檢索的一個基本問題。它把從文本中抽取出的特征詞進行量化來表示文本信息。它將一個無結構的原始文本轉化為結構化的、計算機可以識別處理的信息,即對文本進行科學的抽象,建立其數學模型,用以描述和代替文本。計算機能夠通過對這種模型的計算和操作來實現對文本的識別。由于文本是非結構化的數據,要想從大量的文本中挖掘出有用的信息就必須首先將文本轉化為可處理的結構化形式。