官术网_书友最值得收藏!

1.4.3 數(shù)據(jù)屬性

數(shù)據(jù)框作為R語言數(shù)據(jù)分析與可視化很常用的數(shù)據(jù)結(jié)構(gòu),常由多列不同數(shù)據(jù)屬性的變量組成。在我們實(shí)現(xiàn)數(shù)據(jù)可視化時(shí),很有必要先了解這些變量的屬性。我們平時(shí)記錄的實(shí)驗(yàn)數(shù)據(jù)所用的表(table)就是由一系列不同屬性的變量組成的。Jiawei Han等人的Data mining: concepts and techniques[13]根據(jù)數(shù)據(jù)屬性取值的集合類型,對(duì)數(shù)據(jù)屬性進(jìn)行了分成三類:類別型、序數(shù)型和數(shù)值型,如圖1-4-1所示。Pang-Ning Ta等人的Introduction to Data Mining[14],將序數(shù)型和類別型數(shù)據(jù)統(tǒng)稱為類別型(categorical)或者定性型(qualitative),將數(shù)值型(numeric)也稱為定量型(quantitative)。

圖1-4-1 不同數(shù)據(jù)類型

1.類別型

類別型屬性(categorical attribute)是用于區(qū)分不同數(shù)據(jù)對(duì)象的符號(hào)或名稱,而它們是沒有順序關(guān)系的,又包含多元類別和二元類別兩種類型。對(duì)于多元類別,可以理解為購買服裝時(shí)的不同服裝名稱,如襯衫、毛衣、T恤、夾克等;對(duì)于二元類別,可以理解為購買服裝時(shí)的不同性別,只有男士和女士?jī)煞N性別分類。類別型數(shù)據(jù)的可視化一般使用標(biāo)尺類中的分類尺度。

2.序數(shù)型

序數(shù)型屬性(ordinal attribute)的屬性值是具有順序關(guān)系,或者存在衡量屬性值順序關(guān)系的規(guī)則。比如常見的時(shí)序數(shù)據(jù),就一般是按時(shí)間先后排序的;還有就是平時(shí)調(diào)查問卷中經(jīng)常使用的5個(gè)喜歡程度:非常喜歡、比較喜歡、無所謂、不太喜歡、非常不喜歡。序數(shù)型數(shù)據(jù)的可視化一般使用標(biāo)尺類中的順序尺度和時(shí)間尺度兩種類型。

序數(shù)型數(shù)據(jù)的排列方向有三種,分別是單向型(sequential),有公共零點(diǎn)的雙向型(diverging),以及環(huán)狀周期型(cyclic),如圖1-4-2所示。

圖1-4-2 不同數(shù)據(jù)結(jié)構(gòu)的序數(shù)型

3.?dāng)?shù)值型

數(shù)值型屬性(numeric attribute)使用定量方法表達(dá)屬性值,如整數(shù)或者實(shí)數(shù),包括區(qū)間型數(shù)值屬性(interval-scaled attribute)和比值型數(shù)值屬性(ratio-scaled attribute),如表1-4-3所示。區(qū)間型與比值型數(shù)值最大的區(qū)別就是有無基準(zhǔn)點(diǎn),通常為零點(diǎn)(internal zero-point)。

表1-4-3 包含不同數(shù)據(jù)屬性的變量組合表[13]

比值型數(shù)值屬性的數(shù)據(jù)一般擁有基準(zhǔn)點(diǎn),比如開氏溫標(biāo)(K)以絕對(duì)零度(0K=-273.15oC)為其零點(diǎn),以及平時(shí)通常使用的數(shù)量、重量、高度和速度等。

而區(qū)間型數(shù)值屬性的數(shù)據(jù)的起始值一般是在整個(gè)實(shí)數(shù)區(qū)間上取值,可進(jìn)行差異運(yùn)算,但不能進(jìn)行比值運(yùn)算。比如攝氏溫標(biāo)(°C)與華氏溫標(biāo)(°F)下的溫度、日歷中的年份、經(jīng)度(longitude)與緯度(latitude),它們都沒有真正的零點(diǎn)。在日歷中,0年并不對(duì)應(yīng)時(shí)間的開始,但0°C并不代表沒有溫度。所以可以說10°C比5°C溫度高(差異運(yùn)算),但是不能說10°C是5°C的2倍(比值運(yùn)算)。

我們也可以用值的個(gè)數(shù)區(qū)分?jǐn)?shù)據(jù)類型,可以分為離散型和連續(xù)型[14]。離散型屬性具有有限個(gè)值或者無限個(gè)值,這樣的屬性可以是分類的,也可以是數(shù)值型的。其中二元屬性(binary attribute)是離散型屬性的一種特殊情況,并只接受兩個(gè)值,比如True/False(真/假)、Yes/No(是/否)、Male/Female(男/女),以及0/1。通常二元屬性使用布爾變量表示,或者只取0和1兩個(gè)值的整數(shù)變量表示。連續(xù)型屬性是取實(shí)數(shù)值的屬性,通常使用浮點(diǎn)數(shù)變量表示。理論上講,基于數(shù)據(jù)集合類型劃分的數(shù)據(jù)類型(類別型、序數(shù)型和數(shù)值型)可以與基于屬性值個(gè)數(shù)的任意類型(離散型和連續(xù)型)組合,從而不同的數(shù)據(jù)可能有不同的數(shù)據(jù)屬性組合。

主站蜘蛛池模板: 青龙| 连山| 辽阳市| 泽库县| 平江县| 建始县| 临漳县| 大理市| 胶州市| 阳春市| 江城| 锡林郭勒盟| 资讯 | 嘉兴市| 积石山| 南靖县| 荣成市| 华安县| 垦利县| 太和县| 彭水| 松潘县| 梧州市| 彰化县| 开封县| 龙胜| 土默特左旗| 巴楚县| 滕州市| 山东| 永定县| 阳高县| 抚松县| 北海市| 昭觉县| 林周县| 忻城县| 江安县| 铜陵市| 宁阳县| 杭锦后旗|