官术网_书友最值得收藏!

2.1.2 連續數值屬性的離散化處理

離散化連續數值屬性[9]有兩種基本方法:一種是對訓練集中的樣本的每個特征屬性進行量化(即所謂的無監督離散化),另一種是在離散化時考慮到這些樣本分類(即有監督的離散化)。

無監督的離散化是指將連續數值屬性按其范圍劃分為預定數量的間隔(桶)。

例如,可以通過應用等寬或等頻率分桶,然后用桶的平均值或中位數替換劃分到每個桶里的樣本屬性值,從而對屬性值進行離散化。在這兩種分桶方法中,總的范圍都被劃分為用戶指定的k個間隔。在等寬度分桶中,特征的連續范圍均勻地劃分為寬度相等的間隔,而在等頻率分桶中,在每個桶中放置相同數量的連續值。

當間隔數設置為k時,割點的最大數量為k-1。術語割點是指一個實數值,它將連續值的區間劃分為兩個間隔,一個間隔小于或等于割點,另一個間隔大于割點。

在連續變量分布不均勻的情況下,上述分桶方法可能無法產生良好的效果。而且該方法容易受到異常值的影響,因為異常值會對范圍產生重大影響。有監督的離散化方法克服了這一缺點,其中分類信息被用來尋找由割點劃分的適當的間隔。

有監督的離散化方法通常采用“熵”作為度量來查找潛在的割點,將一系列連續值拆分為兩個間隔。這些方法遞歸地二元劃分該范圍或其子范圍,直到滿足停止條件,其中許多方法使用特定的停止條件。MDLP(最小描述長度原則)被確定為離散化的首選,因為它提供了一種更有原則的方法來確定何時停止遞歸拆分。

離散化的MDLP方法分為自上而下和自下而上兩類。自上而下的方法從一組空的割點開始,并隨著離散化的進行,通過拆分間隔來繼續向列表中添加新的割點。自下而上的方法從特征的所有連續值作為割點的完整列表開始,并隨著離散化的進展通過合并間隔來刪除其中的一些值。選擇合適的離散化方法通常是一個復雜的問題,在很大程度上取決于用戶的需要和其他考慮因素。

主站蜘蛛池模板: 潜山县| 清徐县| 聊城市| 柯坪县| 镇巴县| 梧州市| 清苑县| 嘉鱼县| 林甸县| 湘阴县| 泗阳县| 囊谦县| 农安县| 冕宁县| 涞源县| 竹溪县| 双柏县| 凌云县| 区。| 香港 | 武强县| 卢氏县| 团风县| 砀山县| 临西县| 保德县| 扎囊县| 镶黄旗| 台州市| 连山| 会东县| 溆浦县| 定州市| 醴陵市| 乌兰察布市| 南康市| 丹凤县| 新绛县| 津市市| 桐梓县| 昌平区|