- Python電商數據分析實戰(微課版)
- 陳海城編著
- 4039字
- 2024-03-14 11:20:50
1.4 數據分析的核心理論基礎——統計學
統計學是數據分析領域十分重要的理論基礎,數據分析的主要思想和方法論便來源于統計學。
統計學是關于認識客觀現象總體數量特征和數量關系的科學,是通過搜集、整理、分析、統計資料,認識客觀現象數量規律性的方法論科學。由于統計學的定量研究具有客觀、準確和可檢驗的特點,因此統計方法就成為實證研究的最重要的方法,廣泛適用于自然、社會、經濟、科學技術等領域的分析研究。
1.4.1 統計學的來源及特點
統計學是一門很古老的科學,起源于對社會經濟問題的研究。一般認為其學理研究始于古希臘的亞里士多德時代,迄今已有兩千三百多年的歷史。
統計學(Statistics)最早是由德國國勢學派的阿亨瓦爾(Gottfried Achenwall)于1749年使用的,代表對國家的資料進行分析的學問,也就是“研究國家的科學”。19世紀,人們在廣泛的數據及資料中探究統計學的意義,由美國人辛克萊爾(John Sinclair)將“統計學”引進英語世界。
統計的研究對象是客觀現象的總體數量特征和數量關系。統計研究不同于其他學科的研究,是因為它有以下獨特的研究特點。
(1)統計離不開數據,一切用數據說話。
(2)統計的最終目的是研究總體,而不是研究個體,通過尋找事物的共性,掌握事物的規律。
(3)統計以顯示客觀事物獨立存在的實際情況為目的,數據反映的是事物的真相,統計學則是揭開真相的工具。
1.4.2 統計的基本概念
1.統計總體與總體單位
(1)統計總體。統計總體就是根據一定的目的和要求所確定的研究事物的全體,它是由客觀存在的、具有某種共同性質的許多個別事物構成的整體。
(2)總體單位。總體單位,是指構成統計總體的各個個體單位。但總體單位必須是現實生活中存在的個體,不能是虛構的或抽象的事物。
(3)總體的特征。統計總體必須同時具有同質性、大量性和變異性三大特征。
① 同質性。同質性,是指構成總體的每一個個體單位雖然在許多方面存在差異,但至少在一個方面必須保持相同的性質。同質性是統計總體形成的基礎,構成總體的各個個體單位在某一性質上必須是相同的。
② 大量性。大量性,是指總體由足夠多的單位構成,只有個別或少數的事物不足以構成總體,這是由統計的研究對象決定的。統計的研究對象是客觀現象的數量特征和數量關系,少量事物所表現出來的特征往往帶有偶然性,客觀現象數量方面的規律性只有在大量事物個別特征的匯總中才能顯示出來,表現出共同的傾向,方便人們從中認識到事物的必然性。
③ 變異性。變異性,是指同一總體的各個個體單位除了具有某種或某些共同的性質外,在很多方面是存在差異的,這種差異稱為變異。如果總體中的每個個體在各方面都一樣,就沒有了統計的必要,正是因為變異的普遍存在,才有必要進行統計調查和分析,以尋求總體的一般規律性。
(4)總體的分類。按照總體單位是否可數,總體分為有限總體和無限總體。有限總體規模和范圍相對較小,是由有限的個別事物構成的總體。無限總體包括的個別事物很多,以致無法計量。
(5)總體與總體單位的關系。總體和總體單位不是固定不變的,它們會隨著統計研究的目的不同而變化。一個事物在一種情況下是總體,但在另一種情況下有可能就變成了總體單位。
2.標志和標志表現
(1)標志。標志是說明總體單位的特征或屬性的名稱。每個總體單位從不同方面考察,都有許多屬性和特征。
標志與總體單位的關系是十分明確的,如果沒有標志就無法表現總體單位的特征,如果沒有總體單位,標志也就失去了意義。
(2)標志表現。標志表現,是指標志特征在各單位的具體表現。統計標志是統計所要調查的項目,標志表現是調查的結果,是標志的實際體現。
3.指標
(1)概念。指標,是指同類社會經濟現象總體在一定的時間、地點條件下的綜合數量表現。
例如:2021年某網站“雙十一”,截止到2021年11月11日23:59:59,活動總銷售額為5403億元。
(2)構成要素。由對上例的分析,引出指標的指標名稱、指標數值、時間范圍、空間范圍、計算方法和計量單位6個構成要素。
(3)性質。
① 具體性。總體在具體時間、地點、條件下的數量特征,即統計指標——質的規定性(事物本身就必須具有的應有之義)。
② 綜合性。對總體數量特征的綜合說明是由個體數量綜合而來的,如平均價格=∑每個商品的價格÷全部商品數。
③ 數量性。統計指標是數量范疇,沒有無數量的指標。
(4)分類。指標按性質可分為以下兩種。
① 數量指標。反映社會經濟現象的總規模和總水平的指標,表現形式為絕對數,如商品銷售額、店鋪轉化率、消費者好評率等。
② 質量指標。說明社會經濟現象的相對水平或平均水平的指標,表現形式為相對數或平均數。通常是由兩個總量指標對比派生出來的,反映現象之間的內在聯系和對比關系,如行業平均轉化率、流量價值等。
指標按數值表現形式可分為以下3種。
a.總量指標。反映總體規模,通常以絕對數的形式表現,如人口總數、國內生產總值等。
b.相對指標。兩個絕對數之比,也稱為相對數,如計劃完成程度、男女生的比例等。
c.平均指標。反映總體在某一時間或空間上的平均數量狀況,如人均消費水平、某店鋪一周的平均客單價、平均轉化率等。
(5)指標和標志的關系。
① 區別。指標是說明總體數量特征的概念,而標志是說明總體特征的概念;指標都是用數值表示的,而標志有的是用數值表示的,有的是用文字表示的。
② 聯系。
a.許多統計指標是由各單位的數量標志值匯總而來的,如一個縣的糧食總產量是該縣各鄉鎮糧食產量的合計數。
b.指標和標志之間存在轉化關系,在一定的條件下(研究目的的調整),指標和標志之間可以相互轉化,當研究目的發生轉化后,原來的總體轉化為總體單位,統計指標也就變為數量標志了,反之亦然。
1.4.3 統計的工作過程
1.統計的工作過程
(1)統計設計。開展統計工作的初期需要根據統計研究對象的性質及統計的任務、目的,對統計工作的各方面和各環節進行通盤考慮和全面安排,通過制訂切實可行的方案來指導實際工作。換句話說,就是要先把問題想清楚,圍繞著如何解決問題來設計統計工作。在這個過程中可以把所需的數據種類及要求梳理清楚。
(2)統計調查。根據設計方案的要求,有計劃、有組織地搜索客觀現象的第一手資料。
(3)統計整理。統計整理是統計調查的繼續,它是運用科學的方法對調查資料進行匯總、整理,使之條理化、系統化的工作過程。
(4)統計分析。統計分析在統計工作中必不可少,它是在統計整理的基礎上,借助統計分析工具對統計資料進行綜合分析,通過統計分析可以揭示所研究的客觀現象的數量特征、內在聯系和客觀現象發展變化的本質規律,必要時還可以對客觀現象進行預測。
2.實務中的工作過程
在現實工作中需要頻繁使用到統計的工作流程,例如:通過商品搜索結果分析市場份額,過程如下。
(1)統計設計。由于電商平臺中的商品數遠大于展現在頁面中的商品數,如連衣裙商品有一千多萬的商品數,但展現在消費者面前的搜索結果最多只有4400個商品。因此只能通過抽樣的方法來估算市場,按銷量由多到少排序,抽取銷量排名前4400名的商品作為研究樣本。
(2)統計調查。使用工具或者自行編寫爬蟲獲取搜索結果中銷量排名前4400名的商品信息。
(3)統計整理。對采集的數據進行整理、過濾異常值、處理缺失值等操作,并將數據整理成可供分析的結構。
(4)統計分析。根據分析的維度分類匯總數據,基于分類結果獲取統計意義。
1.4.4 統計的研究方法
1.大量觀察法
大量觀察法是統計研究的特有方法,只有在大量觀察的基礎上,才能消除偶然的數值差異所產生的影響。也只有在大量觀察的基礎上形成的總體平均數,才能顯示總體的一般水平和發展變化規律。僅憑少數資料或短時間的數值變化,難以得到正確的分析結論。一般情況下,數據量越大,統計分析的結果就越接近事物的真實規律。
2.統計分組法
統計分組法在統計研究中占有重要地位,也是分析電商數據時常用的統計方法,它不僅是統計整理資料的重要組成部分,而且在整個統計工作階段都能發揮特有的作用。
從統計設計階段開始,要根據研究對象的特點,制訂分類標準,確定反映總體不同性質特征的分類指標體系。
在統計調查階段,要根據具體的分組規定和分組方法,分門別類地搜集有關數據。
在統計整理階段,需對搜集來的原始資料,按統計分析的要求進行分析或再分組。
到統計分析階段,則可以用類型分組、結構分組、水平分組、依存關系分組、時間階段分組等各種分組方法進行統計分析,以反映總體內部不同分組條件下的事物的相互聯系。
分組方法是進行分析時用到的核心方法,了解并掌握分組方法可以提高數據分析能力。常見的分組方法有以下5種。
(1)類型分組。類型分組是按不同類型進行分組,如按店鋪類型分為天貓店和集市店,分組后可觀察各店鋪銷售數量或銷售額的差異。
(2)結構分組。結構分組是根據研究對象的內部結構進行分組,如研究淘寶類目,可以根據淘寶的類目樹來分組,一級類目分為服飾、數碼等,服飾又可以分為服裝、飾品,服裝又可進一步分為T恤、襯衫等。
(3)水平分組。水平分組是基于研究對象的不同水平進行分組,如分為不同的價格區間、銷量區間進行研究。
(4)依存關系分組。依存關系分組是把性質上有關的不同社會經濟現象聯系起來進行分組。通過依存關系分組,可以觀察不同社會經濟現象總體在數量上的依存關系,認識不同現象在數量上影響的作用、程度和規律。例如:研究商品定價和銷量之間的關系,可以把商品分別按照銷售額和價格進行分組,然后觀察各組的銷售額和商品銷量分布,將兩者聯系起來進行分析。
(5)時間階段分組。時間階段分組是根據時間粒度進行分組,如年、季度、月、周、天、小時、分、秒。在分析店鋪銷售額時可以把銷售額按照不同的時間階段進行分組分析,根據天及以上的粒度分組是研究銷售額的趨勢,根據小時的粒度分組是研究消費者的行為特征的(消費者集中在哪些時間段進行網購消費)趨勢。
3.綜合指標法
綜合指標法就是利用多項綜合指標,對相互關聯的客觀現象進行綜合概括的方法。
4.歸納推斷法
歸納推斷法是從個別到一般的推理方法,是統計研究中常用的方法。歸納推斷法主要應用于所研究的總體單位數很多,甚至是總體無限的情況,通過觀察部分單位并進行計算和分析,推斷總體的數量特征。