官术网_书友最值得收藏!

1.5 入門數據分析需要學習的知識

小白:老姜,聽完您講述后,我覺得數據分析的工作內容還挺有意思,想嘗試一下。不過,不知道入門需要學習的東西多不多,門檻高不高。

老姜:首先,入門數據分析師門檻不算高,在零基礎的情況下,全身心投入準備,一般3個月左右基本就夠了;其次,要達到入門級水平,需要在數據分析知識以及數據分析工具上多下些功夫。下面,我會詳細為你介紹一下需要學習的內容,幫助你盡快入門。

小白:太好了,那我們就開始吧!

1.5.1 數據分析知識

數據分析是統計學與計算機學的交叉學科,要想從容地從事此行業,沒有扎實的理論基礎是萬萬不行的。數據分析的理論基礎,主要有三個模塊,即統計學知識、數據庫知識、算法知識,如圖1-3所示。

圖1-3 數據分析的理論基礎

鑒于前期準備時間有限,因此在圖中標注了知識的重要程度(數字越小越重要)供你參考。下面我會詳細介紹每個模塊的重點學習內容。

1.統計學知識

統計學是數據分析工作中的核心理論基礎,內容會滲透到工作中的方方面面,同時在面試環節也會經常被問到,重要程度可見一斑。核心知識點主要涵蓋以下幾個方向。

· 描述性統計:通過概括性的數學方法及圖表展示,描述業務的發展現狀。主要涵蓋集中趨勢、離散程度、頻數分析、概率分布等。重點工作場景有周報/月報、業務調研摸底、實驗效果評估等。

· 假設檢驗:用于判斷樣本與樣本、樣本與總體之間的差異,是由抽樣誤差所致還是數據本身存在的。主要涵蓋T檢驗、Z檢驗、U檢驗、卡方檢驗、方差齊性檢驗、秩和檢驗等。重點工作場景有異動分析問題挖掘、實驗顯著性校驗等。

· 分類分析:在已知樣本分類的前提下,通過各個特征值,判斷樣本類別歸屬的一種多變量統計分析方法。主要涵蓋線性分類、非線性分類等。重點工作場景有用戶購買預測、用戶流失預測、用戶畫像標簽建設等。

· 相關性分析:用于衡量兩個或多個變量之間的關系密切程度。主要涵蓋單相關、復相關、偏相關等。重點工作場景有分析功能與留存之間的關系、度量模型特征間的相關性等。

· 回歸分析:通過兩個或多個自變量之間的依賴關系,擬合因變量的統計分析方法。主要涵蓋一元線性回歸、多元線性回歸、邏輯回歸、非線性回歸、時間序列回歸等。重點工作場景有指標預測、標簽預測等。

2.數據庫知識

數據分析=數據+分析,從數據庫中獲取數據是分析的前提條件,因此,作為一名數據分析師,也要掌握數據庫的基礎知識。雖無須像數據工程師那樣專業,但要對數據庫的原理及設計規范有一定的認知。在面試的時候,也會或多或少涉及數據庫的基礎知識。

3.算法知識

在入門階段,算法知識的優先級會相對低一些,但當從事數據分析工作后,核心的算法知識還是需要掌握的,可以幫助你擴充職場發展空間。其核心內容主要涵蓋以下幾個方向。

· 特征工程:模型搭建的首個步驟,將數據加工成模型可輸入的格式。其中涵蓋特征清洗、特征轉化、特征提取、樣本調控等。

· 分類算法:根據已知類別樣本的先驗知識,預測未知類別樣本所屬的類別劃分。其中涵蓋KNN、邏輯回歸、樸素貝葉斯、支持向量機、決策樹、集成學習算法、深度學習等。

· 聚類算法:在未有先驗知識的前提下,預測樣本所屬的類別劃分,遵循“物以類聚,人以群分”的原則。其中涵蓋K-means、層次聚類、DBSCAN等。

· 回歸算法:研究自變量與因變量之間擬合關系的算法,經常用在預測場景中。其中涵蓋線性回歸、邏輯回歸、多項式回歸、嶺回歸等。

· 關聯算法:用于度量事物與事物之間關聯程度的算法。其中涵蓋Apriori、FP-growth、Eclat、灰色關聯法等。

· 評估方式:模型的效果是否能在線上數據中取得好的成績,需要以量化的方式進行度量。其中,分類模型的評估方式主要涵蓋準確率、召回率、F-Score、ROC、AUC等;回歸模型評估方式主要涵蓋均方根誤差(RMSE)、判定系數(R2)等。

1.5.2 數據分析工具

如果說數據分析知識是從事數據分析崗位的軟技巧,那么數據分析工具就是行業必備的硬技巧。數據分析工具主要有四個方向,即數據獲取、數據分析、數據展示、數據匯報,如圖1-4所示。

1.數據獲取

所謂“巧婦難為無米之炊”,從數據庫中獲取所需的數據是分析的前提條件。在這個過程中,SQL(Structured Query Language,結構化查詢語言)是必須要掌握的,也是從業的必備技能。

圖1-4 數據分析工具

2.數據分析

數據獲取后,分析是日常工作的核心環節,通過數據的加工處理,探索其中的業務價值。這里主要涉及以下工具。

· Excel:不高端但好用,是數據分析崗位入行必備工具。

· SPSS:數據統計與應用軟件,善于處理中小型數據量,通過可視化界面及點選型操作,完成常規的統計分析。可滿足數據管理、統計分析、圖表分析等內容。

· Python、R:功能豐富,上限較高。可滿足數據處理、數據分析、模型搭建、數據可視化等。雖然不是初學者入門必備,但卻決定著個人能力的上限。

· EViews、SAS:EViews在時間序列場景中應用較多;SAS在銀行、金融領域應用較多。這兩個工具目前了解即可,需要應用時再深入研究。

3.數據展示

數據分析結論輸出后,往往需要配合圖表進行展示。Excel、Python Matplotlib基本可滿足需求,但如果希望追求更加好看的圖表及例行化的輸出,專業的BI工具是必要的。Tableau、神策數據、PowerBI、FineBI都是不錯的選擇,可以嘗試應用。

4.數據匯報

數據對于業務的價值,需要通過匯報讓高層知曉,PPT是數據匯報最常用的工具,也是工作中的必備技能。同時,Xmind在繪制思維導圖上表現很好,推薦配合PPT進行應用。

1.5.3 小結

希望本節的學習可以幫助你了解入行數據分析所需要的技能點,從而在有限時間內,有針對性地進行學習發力。

主站蜘蛛池模板: 台前县| 南通市| 深水埗区| 新密市| 建昌县| 井陉县| 报价| 梓潼县| 溧水县| 铜川市| 白城市| 留坝县| 四子王旗| 肥城市| 高阳县| 油尖旺区| 普格县| 富蕴县| 彭泽县| 运城市| 奈曼旗| 额尔古纳市| 丽江市| 绥阳县| 松潘县| 宜昌市| 安吉县| 旬阳县| 滦平县| 临沧市| 广宁县| 仪征市| 吴川市| 九龙县| 汶上县| 绥江县| 绥阳县| 齐齐哈尔市| 镶黄旗| 祁东县| 铁岭县|