官术网_书友最值得收藏!

第4章 文本信息的特征抽取

文本的表示及其特征項的抽取是文本挖掘、信息檢索的一個基本問題。它把從文本中抽取出的特征詞進行量化來表示文本信息。它將一個無結構的原始文本轉化為結構化的、計算機可以識別處理的信息,即對文本進行科學的抽象,建立其數學模型,用以描述和代替文本。計算機能夠通過對這種模型的計算和操作來實現對文本的識別。由于文本是非結構化的數據,要想從大量的文本中挖掘出有用的信息就必須首先將文本轉化為可處理的結構化形式。

主站蜘蛛池模板: 浙江省| 内丘县| 兴义市| 江城| 济阳县| 定州市| 禹城市| 贺州市| 孟村| 巴里| 家居| 宝应县| 团风县| 民权县| 叙永县| 彭州市| 苗栗县| 同仁县| 财经| 建始县| 巢湖市| 大庆市| 宜兴市| 崇义县| 孟津县| 霞浦县| 怀宁县| 林口县| 靖远县| 永靖县| 师宗县| 龙岩市| 普宁市| 贡嘎县| 开原市| 禹州市| 探索| 隆昌县| 鄂托克旗| 五家渠市| 文昌市|