- 數據分析實踐:專業知識和職場技巧
- 姜文哲
- 2184字
- 2024-12-31 19:44:13
1.5 入門數據分析需要學習的知識
小白:老姜,聽完您講述后,我覺得數據分析的工作內容還挺有意思,想嘗試一下。不過,不知道入門需要學習的東西多不多,門檻高不高。
老姜:首先,入門數據分析師門檻不算高,在零基礎的情況下,全身心投入準備,一般3個月左右基本就夠了;其次,要達到入門級水平,需要在數據分析知識以及數據分析工具上多下些功夫。下面,我會詳細為你介紹一下需要學習的內容,幫助你盡快入門。
小白:太好了,那我們就開始吧!
1.5.1 數據分析知識
數據分析是統計學與計算機學的交叉學科,要想從容地從事此行業,沒有扎實的理論基礎是萬萬不行的。數據分析的理論基礎,主要有三個模塊,即統計學知識、數據庫知識、算法知識,如圖1-3所示。

圖1-3 數據分析的理論基礎
鑒于前期準備時間有限,因此在圖中標注了知識的重要程度(數字越小越重要)供你參考。下面我會詳細介紹每個模塊的重點學習內容。
1.統計學知識
統計學是數據分析工作中的核心理論基礎,內容會滲透到工作中的方方面面,同時在面試環節也會經常被問到,重要程度可見一斑。核心知識點主要涵蓋以下幾個方向。
· 描述性統計:通過概括性的數學方法及圖表展示,描述業務的發展現狀。主要涵蓋集中趨勢、離散程度、頻數分析、概率分布等。重點工作場景有周報/月報、業務調研摸底、實驗效果評估等。
· 假設檢驗:用于判斷樣本與樣本、樣本與總體之間的差異,是由抽樣誤差所致還是數據本身存在的。主要涵蓋T檢驗、Z檢驗、U檢驗、卡方檢驗、方差齊性檢驗、秩和檢驗等。重點工作場景有異動分析問題挖掘、實驗顯著性校驗等。
· 分類分析:在已知樣本分類的前提下,通過各個特征值,判斷樣本類別歸屬的一種多變量統計分析方法。主要涵蓋線性分類、非線性分類等。重點工作場景有用戶購買預測、用戶流失預測、用戶畫像標簽建設等。
· 相關性分析:用于衡量兩個或多個變量之間的關系密切程度。主要涵蓋單相關、復相關、偏相關等。重點工作場景有分析功能與留存之間的關系、度量模型特征間的相關性等。
· 回歸分析:通過兩個或多個自變量之間的依賴關系,擬合因變量的統計分析方法。主要涵蓋一元線性回歸、多元線性回歸、邏輯回歸、非線性回歸、時間序列回歸等。重點工作場景有指標預測、標簽預測等。
2.數據庫知識
數據分析=數據+分析,從數據庫中獲取數據是分析的前提條件,因此,作為一名數據分析師,也要掌握數據庫的基礎知識。雖無須像數據工程師那樣專業,但要對數據庫的原理及設計規范有一定的認知。在面試的時候,也會或多或少涉及數據庫的基礎知識。
3.算法知識
在入門階段,算法知識的優先級會相對低一些,但當從事數據分析工作后,核心的算法知識還是需要掌握的,可以幫助你擴充職場發展空間。其核心內容主要涵蓋以下幾個方向。
· 特征工程:模型搭建的首個步驟,將數據加工成模型可輸入的格式。其中涵蓋特征清洗、特征轉化、特征提取、樣本調控等。
· 分類算法:根據已知類別樣本的先驗知識,預測未知類別樣本所屬的類別劃分。其中涵蓋KNN、邏輯回歸、樸素貝葉斯、支持向量機、決策樹、集成學習算法、深度學習等。
· 聚類算法:在未有先驗知識的前提下,預測樣本所屬的類別劃分,遵循“物以類聚,人以群分”的原則。其中涵蓋K-means、層次聚類、DBSCAN等。
· 回歸算法:研究自變量與因變量之間擬合關系的算法,經常用在預測場景中。其中涵蓋線性回歸、邏輯回歸、多項式回歸、嶺回歸等。
· 關聯算法:用于度量事物與事物之間關聯程度的算法。其中涵蓋Apriori、FP-growth、Eclat、灰色關聯法等。
· 評估方式:模型的效果是否能在線上數據中取得好的成績,需要以量化的方式進行度量。其中,分類模型的評估方式主要涵蓋準確率、召回率、F-Score、ROC、AUC等;回歸模型評估方式主要涵蓋均方根誤差(RMSE)、判定系數(R2)等。
1.5.2 數據分析工具
如果說數據分析知識是從事數據分析崗位的軟技巧,那么數據分析工具就是行業必備的硬技巧。數據分析工具主要有四個方向,即數據獲取、數據分析、數據展示、數據匯報,如圖1-4所示。
1.數據獲取
所謂“巧婦難為無米之炊”,從數據庫中獲取所需的數據是分析的前提條件。在這個過程中,SQL(Structured Query Language,結構化查詢語言)是必須要掌握的,也是從業的必備技能。

圖1-4 數據分析工具
2.數據分析
數據獲取后,分析是日常工作的核心環節,通過數據的加工處理,探索其中的業務價值。這里主要涉及以下工具。
· Excel:不高端但好用,是數據分析崗位入行必備工具。
· SPSS:數據統計與應用軟件,善于處理中小型數據量,通過可視化界面及點選型操作,完成常規的統計分析。可滿足數據管理、統計分析、圖表分析等內容。
· Python、R:功能豐富,上限較高。可滿足數據處理、數據分析、模型搭建、數據可視化等。雖然不是初學者入門必備,但卻決定著個人能力的上限。
· EViews、SAS:EViews在時間序列場景中應用較多;SAS在銀行、金融領域應用較多。這兩個工具目前了解即可,需要應用時再深入研究。
3.數據展示
數據分析結論輸出后,往往需要配合圖表進行展示。Excel、Python Matplotlib基本可滿足需求,但如果希望追求更加好看的圖表及例行化的輸出,專業的BI工具是必要的。Tableau、神策數據、PowerBI、FineBI都是不錯的選擇,可以嘗試應用。
4.數據匯報
數據對于業務的價值,需要通過匯報讓高層知曉,PPT是數據匯報最常用的工具,也是工作中的必備技能。同時,Xmind在繪制思維導圖上表現很好,推薦配合PPT進行應用。
1.5.3 小結
希望本節的學習可以幫助你了解入行數據分析所需要的技能點,從而在有限時間內,有針對性地進行學習發力。
- Architects of Intelligence
- Spark核心技術與高級應用
- Oracle 12c云數據庫備份與恢復技術
- 數據中心數字孿生應用實踐
- INSTANT Android Fragmentation Management How-to
- 數據科學實戰指南
- Web Services Testing with soapUI
- MySQL數據庫實用教程
- Oracle 11g數據庫管理與開發基礎教程
- Practical Convolutional Neural Networks
- 代碼的未來
- 數據挖掘與數據化運營實戰:思路、方法、技巧與應用
- Scratch Cookbook
- 工業大數據分析實踐
- 數據分析實踐:專業知識和職場技巧