- 對比Excel,輕松學(xué)習(xí)Python數(shù)據(jù)分析(入職數(shù)據(jù)分析師系列)
- 張俊紅
- 1721字
- 2019-07-25 11:41:40
1.3 數(shù)據(jù)分析究竟在分析什么
數(shù)據(jù)分析的重點(diǎn)在分析,而不在工具,那么我們究竟該分析什么呢?
1.3.1 總體概覽指標(biāo)
總體概覽指標(biāo)又稱統(tǒng)計(jì)絕對數(shù),是反映某一數(shù)據(jù)指標(biāo)的整體規(guī)模大小,總量多少的指標(biāo)。
例如,當(dāng)日銷售額為60萬元,當(dāng)日訂單量為2萬,購買人數(shù)是1.5萬人,這些都是概覽指標(biāo),用來反映某個時間段內(nèi)某項(xiàng)業(yè)務(wù)的某些指標(biāo)的絕對量。
我們把經(jīng)常關(guān)注的總體概覽指標(biāo)稱為關(guān)鍵性指標(biāo),這些指標(biāo)的數(shù)值將會直接決定公司的盈利情況。
1.3.2 對比性指標(biāo)
對比性指標(biāo)是說明現(xiàn)象之間數(shù)量對比關(guān)系的指標(biāo),常見的就是同比、環(huán)比、差這幾個指標(biāo)。
同比是指相鄰時間段內(nèi)某一共同時間點(diǎn)上指標(biāo)的對比,環(huán)比就是相鄰時間段內(nèi)指標(biāo)的對比;差就是兩個時間段內(nèi)的指標(biāo)直接做差,差的絕對值就是兩個時間段內(nèi)指標(biāo)的變化量。
例如,2018年和2017年是相鄰時間段,那么2018年的第26周和2017年的第26周之間的對比就是同比,而2018年的第26周和第25周的對比就是環(huán)比。
1.3.3 集中趨勢指標(biāo)
集中趨勢指標(biāo)是用來反映某一現(xiàn)象在一定時間段內(nèi)所達(dá)到的一般水平,通常用平均指標(biāo)來表示。平均指標(biāo)分為數(shù)值平均和位置平均。例如,某地的平均工資就是一個集中趨勢指標(biāo)。
數(shù)值平均是統(tǒng)計(jì)數(shù)列中所有數(shù)值平均的結(jié)果,有普通平均數(shù)和加權(quán)平均數(shù)兩種。普通平均的所有數(shù)值的權(quán)重都是1,而加權(quán)平均中不同數(shù)值的權(quán)重是不一樣的,在算平均值時不同數(shù)值要乘以不同的權(quán)重。
假如你要算一年中每月的月平均銷量,這個時候一般就用數(shù)值平均,直接把12個月的銷量相加除以12即可。
假如你要算一個人的平均信用得分情況,由于影響信用得分的因素有多個,而且不同因素的權(quán)重占比是不一樣的,這個時候就需要使用加權(quán)平均。
位置平均是基于某個特殊位置上的數(shù)或者普遍出現(xiàn)的數(shù),即用出現(xiàn)次數(shù)最多的數(shù)值來作為這一系列數(shù)值的整體一般水平。基于位置的指標(biāo)最常用的就是中位數(shù),基于出現(xiàn)次數(shù)最多的指標(biāo)就是眾數(shù)。
眾數(shù)是一系列數(shù)值中出現(xiàn)次數(shù)最多的數(shù)值,是總體中最普遍的值,因此可以用來代表一般水平。如果數(shù)據(jù)可以分為多組,則為每組找出一個眾數(shù)。注意,眾數(shù)只有在總體內(nèi)單位足夠多時才有意義。
中位數(shù)是將一系列值中的每一個值按照從小到大順序排列,處于中間位置的數(shù)值就是中位數(shù)。因?yàn)樘幱谥虚g位置,有一半變量值大于該值,一半小于該值,所以可以用這樣的中等水平來表示整體的一般水平。
1.3.4 離散程度指標(biāo)
離散程度指標(biāo)是用來表示總體分布的離散(波動)情況的指標(biāo),如果這個指標(biāo)較大,則說明數(shù)據(jù)波動比較大,反之則說明數(shù)據(jù)相對比較穩(wěn)定。
全距(又稱極差)、方差、標(biāo)準(zhǔn)差等幾個指標(biāo)用于衡量數(shù)值的離散情況。
全距:由于平均數(shù)讓我們確定一批數(shù)據(jù)的中心,但是無法知道數(shù)據(jù)的變動情況,因此引入全距。全距的計(jì)算方法是用數(shù)據(jù)集中最大數(shù)(上界)減去數(shù)據(jù)集中最小數(shù)(下界)。
全距存在的問題主要有兩方面。
● 問題1,容易受異常值影響。
● 問題2,全距只表示了數(shù)據(jù)的寬度,沒有描述清楚數(shù)據(jù)上下界之間的分布形態(tài)。
對于問題1我們引入四分位數(shù)的概念。四分位數(shù)將一些數(shù)值從小到大排列,然后一分為四,最小的四分位數(shù)為下四分位數(shù),最大的四分位數(shù)為上四分位數(shù),中間的四分位數(shù)為中位數(shù)。
對于問題2我們引入了方差和標(biāo)準(zhǔn)差兩個概念來衡量數(shù)據(jù)的分散性。
方差是每個數(shù)值與均值距離的平方的平均值,方差越小說明各數(shù)值與均值之間的差距越小,數(shù)值越穩(wěn)定。
標(biāo)準(zhǔn)差是方差的開方,表示數(shù)值與均值距離的平均值。
1.3.5 相關(guān)性指標(biāo)
上面提到的幾個維度是對數(shù)據(jù)整體的情況進(jìn)行描述,但是我們有的時候想看一下數(shù)據(jù)整體內(nèi)的變量之間存在什么關(guān)系,一個變化時會引起另一個怎么變化,我們把用
來反映這種關(guān)系的指標(biāo)叫做相關(guān)系數(shù),相關(guān)系數(shù)常用r來表示。

其中,Cov(X,Y)為X與Y的協(xié)方差,Var[X]為X的方差,Var[Y]為Y的方差。
關(guān)于相關(guān)系數(shù)需要注意以下幾點(diǎn)。
● 相關(guān)系數(shù)r的范圍為[-1,1]。
● r的絕對值越大,表示相關(guān)性越強(qiáng)。
● r的正負(fù)代表相關(guān)性的方向,正代表正相關(guān),負(fù)代表負(fù)相關(guān)。
1.3.6 相關(guān)關(guān)系與因果關(guān)系
相關(guān)關(guān)系不等于因果關(guān)系,相關(guān)關(guān)系只能說明兩件事情有關(guān)聯(lián),而因果關(guān)系是說明一件事情導(dǎo)致了另一件事情的發(fā)生,不要把這兩種關(guān)系混淆使用。
例如,啤酒和尿布是具有相關(guān)關(guān)系的,但是不具有因果關(guān)系;而流感疾病和關(guān)鍵詞檢索量上漲是具有因果關(guān)系的。
在實(shí)際業(yè)務(wù)中會遇到很多相關(guān)關(guān)系,但是具有相關(guān)關(guān)系的兩者不一定有因果關(guān)系,一定要注意區(qū)分。
- 數(shù)據(jù)要素安全流通
- 算法競賽入門經(jīng)典:習(xí)題與解答
- 劍破冰山:Oracle開發(fā)藝術(shù)
- Mastering Ninject for Dependency Injection
- App+軟件+游戲+網(wǎng)站界面設(shè)計(jì)教程
- Oracle RAC 11g實(shí)戰(zhàn)指南
- 商業(yè)分析思維與實(shí)踐:用數(shù)據(jù)分析解決商業(yè)問題
- 數(shù)據(jù)革命:大數(shù)據(jù)價值實(shí)現(xiàn)方法、技術(shù)與案例
- 深度剖析Hadoop HDFS
- Python金融實(shí)戰(zhàn)
- Power BI商業(yè)數(shù)據(jù)分析完全自學(xué)教程
- SAS金融數(shù)據(jù)挖掘與建模:系統(tǒng)方法與案例解析
- Oracle數(shù)據(jù)庫管理、開發(fā)與實(shí)踐
- Expert Python Programming(Third Edition)
- 數(shù)據(jù)庫原理與設(shè)計(jì)實(shí)驗(yàn)教程(MySQL版)