- R語言數(shù)據(jù)可視化之美:專業(yè)圖表繪制指南
- 張杰
- 1217字
- 2019-09-20 14:52:42
1.4.3 數(shù)據(jù)屬性
數(shù)據(jù)框作為R語言數(shù)據(jù)分析與可視化很常用的數(shù)據(jù)結(jié)構(gòu),常由多列不同數(shù)據(jù)屬性的變量組成。在我們實(shí)現(xiàn)數(shù)據(jù)可視化時(shí),很有必要先了解這些變量的屬性。我們平時(shí)記錄的實(shí)驗(yàn)數(shù)據(jù)所用的表(table)就是由一系列不同屬性的變量組成的。Jiawei Han等人的Data mining: concepts and techniques[13]根據(jù)數(shù)據(jù)屬性取值的集合類型,對(duì)數(shù)據(jù)屬性進(jìn)行了分成三類:類別型、序數(shù)型和數(shù)值型,如圖1-4-1所示。Pang-Ning Ta等人的Introduction to Data Mining[14],將序數(shù)型和類別型數(shù)據(jù)統(tǒng)稱為類別型(categorical)或者定性型(qualitative),將數(shù)值型(numeric)也稱為定量型(quantitative)。

圖1-4-1 不同數(shù)據(jù)類型
1.類別型
類別型屬性(categorical attribute)是用于區(qū)分不同數(shù)據(jù)對(duì)象的符號(hào)或名稱,而它們是沒有順序關(guān)系的,又包含多元類別和二元類別兩種類型。對(duì)于多元類別,可以理解為購買服裝時(shí)的不同服裝名稱,如襯衫、毛衣、T恤、夾克等;對(duì)于二元類別,可以理解為購買服裝時(shí)的不同性別,只有男士和女士?jī)煞N性別分類。類別型數(shù)據(jù)的可視化一般使用標(biāo)尺類中的分類尺度。
2.序數(shù)型
序數(shù)型屬性(ordinal attribute)的屬性值是具有順序關(guān)系,或者存在衡量屬性值順序關(guān)系的規(guī)則。比如常見的時(shí)序數(shù)據(jù),就一般是按時(shí)間先后排序的;還有就是平時(shí)調(diào)查問卷中經(jīng)常使用的5個(gè)喜歡程度:非常喜歡、比較喜歡、無所謂、不太喜歡、非常不喜歡。序數(shù)型數(shù)據(jù)的可視化一般使用標(biāo)尺類中的順序尺度和時(shí)間尺度兩種類型。
序數(shù)型數(shù)據(jù)的排列方向有三種,分別是單向型(sequential),有公共零點(diǎn)的雙向型(diverging),以及環(huán)狀周期型(cyclic),如圖1-4-2所示。

圖1-4-2 不同數(shù)據(jù)結(jié)構(gòu)的序數(shù)型
3.?dāng)?shù)值型
數(shù)值型屬性(numeric attribute)使用定量方法表達(dá)屬性值,如整數(shù)或者實(shí)數(shù),包括區(qū)間型數(shù)值屬性(interval-scaled attribute)和比值型數(shù)值屬性(ratio-scaled attribute),如表1-4-3所示。區(qū)間型與比值型數(shù)值最大的區(qū)別就是有無基準(zhǔn)點(diǎn),通常為零點(diǎn)(internal zero-point)。
表1-4-3 包含不同數(shù)據(jù)屬性的變量組合表[13]

比值型數(shù)值屬性的數(shù)據(jù)一般擁有基準(zhǔn)點(diǎn),比如開氏溫標(biāo)(K)以絕對(duì)零度(0K=-273.15oC)為其零點(diǎn),以及平時(shí)通常使用的數(shù)量、重量、高度和速度等。
而區(qū)間型數(shù)值屬性的數(shù)據(jù)的起始值一般是在整個(gè)實(shí)數(shù)區(qū)間上取值,可進(jìn)行差異運(yùn)算,但不能進(jìn)行比值運(yùn)算。比如攝氏溫標(biāo)(°C)與華氏溫標(biāo)(°F)下的溫度、日歷中的年份、經(jīng)度(longitude)與緯度(latitude),它們都沒有真正的零點(diǎn)。在日歷中,0年并不對(duì)應(yīng)時(shí)間的開始,但0°C并不代表沒有溫度。所以可以說10°C比5°C溫度高(差異運(yùn)算),但是不能說10°C是5°C的2倍(比值運(yùn)算)。
我們也可以用值的個(gè)數(shù)區(qū)分?jǐn)?shù)據(jù)類型,可以分為離散型和連續(xù)型[14]。離散型屬性具有有限個(gè)值或者無限個(gè)值,這樣的屬性可以是分類的,也可以是數(shù)值型的。其中二元屬性(binary attribute)是離散型屬性的一種特殊情況,并只接受兩個(gè)值,比如True/False(真/假)、Yes/No(是/否)、Male/Female(男/女),以及0/1。通常二元屬性使用布爾變量表示,或者只取0和1兩個(gè)值的整數(shù)變量表示。連續(xù)型屬性是取實(shí)數(shù)值的屬性,通常使用浮點(diǎn)數(shù)變量表示。理論上講,基于數(shù)據(jù)集合類型劃分的數(shù)據(jù)類型(類別型、序數(shù)型和數(shù)值型)可以與基于屬性值個(gè)數(shù)的任意類型(離散型和連續(xù)型)組合,從而不同的數(shù)據(jù)可能有不同的數(shù)據(jù)屬性組合。
- OpenStack Cloud Computing Cookbook(Third Edition)
- C++案例趣學(xué)
- VMware View Security Essentials
- JavaScript語言精髓與編程實(shí)踐(第3版)
- Apache Spark 2 for Beginners
- YARN Essentials
- 精通Python設(shè)計(jì)模式(第2版)
- 大模型RAG實(shí)戰(zhàn):RAG原理、應(yīng)用與系統(tǒng)構(gòu)建
- Advanced UFT 12 for Test Engineers Cookbook
- Learning Python Data Visualization
- Hands-On Robotics Programming with C++
- Software-Defined Networking with OpenFlow(Second Edition)
- 川哥教你Spring Boot 2實(shí)戰(zhàn)
- Office VBA開發(fā)經(jīng)典:中級(jí)進(jìn)階卷
- 陪孩子像搭積木一樣學(xué)編程:Python真好玩+Scratch趣味編程(全2冊(cè))