- Python電商數據分析實戰(微課版)
- 陳海城編著
- 3485字
- 2024-03-14 11:20:49
1.2 電商數據分析的必備知識和工具
電商數據分析師和業務數據分析師的定位相似,需要多種技能的支撐才可以完成數據分析任務,由此可知,數據分析并不是一個獨立的學科,它跟多個學科的知識有著緊密的聯系。電商數據人才除了要能從數字中獲取有價值的信息之外,還需要具備以下幾方面熟練的數據處理能力。
(1)數學和統計學。數學和統計學是數據分析中兩門最基本的理論知識學科,數據分析就是這兩門學科的應用。
(2)運籌學。運籌學是現代管理學中一門重要的專業基礎課,主要研究求最優解,可解決運營過程中的最佳決策問題。
(3)數據分析方法論。數據分析方法論是前人分析的經驗歸納,套用方法論可以快速入門數據分析。
(4)數據分析工具?!肮び破涫拢叵壤淦鳌?,數據分析單靠筆尖或者計算器速度太慢,面對大量資料的整理是需要具備專業技能的,因此熟練掌握至少一個數據分析工具的應用將會大幅度提高數據分析的效率和精度。
(5)電商業務能力。對于一名從事數據分析的工作者來說,對業務場景的敏銳度十分重要,只有懂業務的數據分析師才能將數據轉變成生產力。
(6)電商數據指標體系。了解并掌握電商的數據指標體系可以幫助數據分析工作者更快、更準確地開展數據分析工作。
1.2.1 數學和統計學
數據分析是從統計學發展而來的,而統計學是從數學發展而來的。數學知識是數據分析的理論基礎,只會軟件操作并不能滿足數據分析的要求,普通的商業分析要求分析人員的數學水平在高中及以上,能看懂數學符號和數學公式。如果涉及數學建模,則要求數學水平在大學本科及以上,如圖1-8所示。具體的數學要求如下。

圖1-8 數學要求
(1)初中數學基礎。數學運算(基本運算、因式分解),方程與方程組,不等式與不等式組(簡單的線性規劃),初步統計(平均數、眾數、中位數、極差、方差、標準差、頻數、頻率、頻率分布直方圖),初步概率(概率計算)等。
(2)高中數學基礎。集合(交、并、補),基本初等函數(指數函數、對數函數、冪函數),函數的應用(求極值、最值及變化趨勢),算法(結構與語句),數列(遞推邏輯、歸納演繹),簡易邏輯(真假命題、假設邏輯),合情推理(歸納、類比),演繹推理(三段論)等。
(3)統計學基礎。抽樣調查與推斷,概率論,描述統計學,推斷統計學等。
(4)高等數學(更深層次的學習與研究)基礎。線性代數、微積分、復變函數等。
1.2.2 運籌學
運籌學是現代管理學的一門重要的專業基礎課,也是數據分析的理論基礎。它是20世紀30年代初發展起來的一門新興學科,其主要作用是在決策時為管理人員提供科學依據,是實現有效管理、正確決策和現代化管理的重要方法。該學科是應用數學和形式科學的跨領域研究,利用統計學、數學模型和算法等,尋找復雜問題中的最佳或近似最佳的解答。
在電商業務背景下,運籌學具有非常廣泛的應用場景,如確定最佳的推廣方案,確定最短的運營路徑,確定最佳的產品組合,確定最佳的人工排班方案等。
1.2.3 數據分析方法論
許多電商從業者在分析數據的時候會遇到許多問題,如不知從哪方面切入并開展分析,不知數據分析的內容和指標是否合理、完整。出現這些問題都是因為數據分析人員沒有掌握數據分析方法論。
數據分析方法論可以幫助分析人員依據某些軌跡順利地開展分析活動。常見的數據分析方法有以下9種。
(1)對比法。通過參照物的對比了解現狀和發現問題,通過橫向和縱向的對比找到自己所處的位置。
(2)拆分法。將大問題和相關的指標拆解成多個小問題和多個相關指標,通過拆解問題和指標可以快速找到問題產生的原因。
(3)分組法。將數據依據某些維度進行分組統計,觀察分組后的結果以洞察事物的特征。
(4)排序法?;谀硞€度量值進行遞增或遞減的排列,排序后的結果可以清晰地反映所有觀測值的情況。
(5)交叉法。將兩個及以上的維度進行交叉分析,如通過對產品特征和價格區間兩個維度的交叉分析,找到更符合企業定位的細分市場。
(6)降維法。分析問題時若指標的信息量過多,采用業務梳理的方式選擇核心指標進行分析,減少過多指標的干擾。在統計學上也可以使用主成分分析或因子分析方法達到降維的目的。
(7)增維法。分析問題時若指標的信息量不足,通過計算派生出新的指標,以獲取更多的信息量,如搜索競爭度=搜索人氣÷商品數。
(8)指標法。在分析時采用指標的方式分析結果,一般通過表格來查看分析結果。
(9)圖形法。在分析時采用圖形的方式更加直觀地分析結果。
除了以上常見的數據分析方法之外,還有一些在業務上常用的思維分析方法,如以下7種方法。
(1)SWOT分析法。S(Strength)是優勢、W(Weakness)是劣勢、O(Opportunity)是機會、T(Threat)是威脅,即基于內、外部競爭環境和競爭條件下的態勢分析,就是將與研究對象密切相關的各種主要內部優勢、劣勢和外部的機會和威脅等,通過調查列舉出來,并依照矩陣形式排列,然后用系統分析的思想,把各種因素相互匹配并加以分析,從中得出一系列相應的結論,而該結論通常帶有一定的決策性。通過該方法,企業可以了解自己所處的環境,對內、外部因素進行分析并制訂應對策略。
(2)描述性統計法。概括、表述事物整體狀況及事物間關聯、類屬關系,基于統計值來表示數據集的集中和離散等情況。
(3)矩陣分析法。將主要因素放在矩陣的兩個維度軸進行定量或者定性的分析,并通過某個點將數據分成4個象限。
(4)多維分析法。將3個及以上的維度在表格、多維平面圖或者三維圖中進行觀測分析。
(5)數據歸一化。將數值映射在[0,1]的范圍中,消除因為值域不同而產生的分析難點,一般配合多維分析法使用或在數據建模時使用。
(6)時間序列分析法。針對連續的、變化的時間數據的分析方法,主要用于預測連續的未來數據,如分析店鋪每天的銷售額。
(7)相關性分析法。研究指標間的相關程度,常用于尋找關鍵影響因素。
1.2.4 數據分析工具
掌握兩個及以上的分析工具才能更好地進行數據分析。分析工具種類很多,具體可分成以下三類。
(1)數據庫。按照數據結構來組織、存儲和管理數據的倉庫。常見的數據庫有Access、Microsoft SQL Server(簡稱MSSQL)、MySQL、Oracle、IBM DB2。
(2)數據分析與可視化。用于組織數據進行分析和可視化呈現的工具,常見的工具有Excel、Power Business Intelligence(簡稱Power BI)、Tableau。
(3)統計與數據挖掘。用于統計分析和數據挖掘的工具,常見的工具有R語言、Python、統計產品與服務解決方案(Solutions Statistical Package Social Sciences,SPSS)、統計分析系統(Statistical Analysis System,SAS)。
根據企業不同的需求階段,需要掌握的工具也不同,具體如下。
(1)第一階段。這個階段的企業現狀是數據用Excel或WPS文件存儲,數據文件多而雜亂,經營多年的電商企業甚至會有超過10萬張歷史數據表格,無法對繁雜的歷史數據進行分析,數據管理雜亂。這個階段企業需要解決數據的統一管理及分析問題。可選用Excel和MySQL,Excel可解決分析層和應用層的問題,MySQL可解決大數據量的存儲和計算問題,而且Excel和MySQL在國內企業中的普及率相對較高。
(2)第二階段。這個階段的企業現狀是已經實現了統一管理和數據分析,但隨著企業數據量和數據應用能力的提升,原有的Excel已經滿足不了大數據量下進行多表建模聯合分析的需求,可能刷新一份分析模型文件所需的時間很長。此時需要使用BI(Business Intelligence)產品來滿足復雜的業務建模需求,可選用微軟的 Power BI。部分企業在這個階段會有專業統計方法和數據挖掘的需求,可選擇SPSS,該工具的掌握難度不大。SPSS有兩個工具:一個是Statistics,用于統計分析;另一個是 Modeler,用于進行商業數據的分析與挖掘。SPSS 在國內企業中的普及率較低。
(3)第三階段。這個階段的企業已經屬于數據驅動型企業,數據應用需要在生產、流通、銷售和管理等各個環節滲透,隨著數據種類的復雜化,原有的數據采集、清洗及算法應用的效率已經滿足不了需求,要運用信息技術(Information Technology,IT)和算法解決商業問題,真正將數據轉變成生產力??梢栽赗語言和Python語言之間選擇一種,這兩者都是應用非常廣泛的編程語言。
(4)第四階段。這個階段的企業已經是深度數據驅動型企業,進入這個階段的只有少數的龍頭企業,它們通過技術手段極大地提高工作效率和商業收益,轉型智慧商業領域,運用大數據和人工智能升級改造所有環節。企業在這個階段需要應用大數據框架(如Hadoop)來解決并發現問題,以及人工智能框架(如TensorFlow)來解決應用問題。
1.2.5 電商數據指標體系
電商數據指標體系,是指由相互之間有邏輯聯系的指標構成的整體,是基于業務場景而構建的一個完善的數據指標體系,將給業務提供有力的支撐,而且可以防止因為人員的流動導致數據分析部門運作癱瘓問題的發生。
業務的差異性,導致不同電商平臺、不同商戶的電商數據指標體系可能存在差異,但是大體上都基于以下公式展開:
銷售額=訪客數×轉化率×客單價 ?。?-1)
式(1-1)是電商行業的重要公式,基于這個公式可延伸出電商數據指標體系。