官术网_书友最值得收藏!

4.1 文本特征的抽取概述

文本特征抽取對文本內(nèi)容的過濾和分類、聚類處理、自動(dòng)摘要以及用戶興趣模式發(fā)現(xiàn)、知識發(fā)現(xiàn)等有關(guān)方面的研究都有非常重要的影響。通常根據(jù)某個(gè)特征評估函數(shù)計(jì)算各個(gè)特征的評分值,然后按評分值對這些特征進(jìn)行排序,選取若干個(gè)評分值最高的作為特征詞,這就是特征抽取(Feature Selection)。

目前,通常采用向量空間模型(請參考4.2節(jié))來描述文本向量。但是如果直接用分詞算法和詞頻統(tǒng)計(jì)方法得到的特征項(xiàng)來表示文本向量中的各個(gè)維,那么這個(gè)向量的維度將非常大。這種未經(jīng)處理的文本矢量不僅給后續(xù)工作帶來巨大的計(jì)算開銷,使整個(gè)處理過程的效率非常低下,而且會(huì)損害分類、聚類算法的精確性,從而使所得到的結(jié)果很難令人滿意。因此,必須對文本向量做進(jìn)一步凈化處理,在保證原文含義的基礎(chǔ)上,找出最具代表性的文本特征。為了解決這個(gè)問題,最有效的辦法就是通過特征選擇來降維。

目前,有關(guān)文本表示的研究主要集中于文本表示模型的選擇和特征詞選擇算法的選取上。用于表示文本的基本單位通常稱為文本的特征或特征項(xiàng)。特征項(xiàng)必須具備一定的特性:

1)特征項(xiàng)要能夠確實(shí)標(biāo)識文本內(nèi)容。

2)特征項(xiàng)具有將目標(biāo)文本與其他文本相區(qū)分的能力。

3)特征項(xiàng)的個(gè)數(shù)不能太多。

4)特征項(xiàng)的分離要比較容易實(shí)現(xiàn)。

在中文文本中可以采用字、詞或短語作為表示文本的特征項(xiàng)。相比較而言,詞比字具有更強(qiáng)的表達(dá)能力,而詞和短語相比,詞的切分難度比短語的切分難度小得多。因此,目前大多數(shù)中文文本分類系統(tǒng)都采用詞作為特征項(xiàng),稱作特征詞。

特征詞作為文檔的中間表示形式,用來實(shí)現(xiàn)文檔與文檔、文檔與用戶目標(biāo)之間的相似度計(jì)算。如果把所有的詞都作為特征項(xiàng),那么特征向量的維數(shù)將過于巨大,從而導(dǎo)致計(jì)算量太大,在這樣的情況下,要完成文本分類幾乎是不可能的。特征抽取的主要功能是在不損傷文本核心信息的情況下盡量減少要處理的單詞數(shù),以此來降低向量空間維數(shù),從而簡化計(jì)算,提高文本處理的速度和效率。

特征抽取的方式有四種:

1)用映射或變換的方法把原始特征變換為較少的新特征。

2)從原始特征中挑選出一些最具代表性的特征。

3)根據(jù)專家知識挑選最有影響的特征。

4)用數(shù)學(xué)的方法進(jìn)行抽取,找出最具分類信息的特征。這種方法是一種比較精確的方法,人為因素的干擾較少,尤其適合于文本自動(dòng)分類挖掘系統(tǒng)的應(yīng)用。

隨著網(wǎng)絡(luò)知識組織、人工智能等學(xué)科的發(fā)展,文本特征抽取將向著數(shù)字化、智能化、語義化的方向深入發(fā)展,在社會(huì)知識管理方面發(fā)揮更大的作用。

主站蜘蛛池模板: 名山县| 晋州市| 泉州市| 濮阳县| 九龙县| 永康市| 乐业县| 临澧县| 河北区| 金昌市| 阿城市| 昭觉县| 通山县| 尚志市| 石棉县| 香港 | 祁阳县| 庄河市| 重庆市| 济源市| 上饶县| 清远市| 金阳县| 扶沟县| 天祝| 伽师县| 上思县| 萍乡市| 贵南县| 昌乐县| 湄潭县| 江西省| 资中县| 西乡县| 罗城| 连江县| 旬邑县| 克山县| 汝州市| 吴忠市| 馆陶县|