官术网_书友最值得收藏!

1.3 與建模密切相關(guān)的4個領(lǐng)域

與建模密切相關(guān)的領(lǐng)域包括統(tǒng)計分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和數(shù)據(jù)分析,它們對應(yīng)了不同類型的工作崗位,例如風(fēng)險建模分析師、數(shù)據(jù)挖掘工程師、數(shù)據(jù)分析師、數(shù)據(jù)運(yùn)營專員、數(shù)據(jù)工程師等。本節(jié)將重點介紹這幾個領(lǐng)域的定義、特征以及相互之間的聯(lián)系和區(qū)別。

1.3.1 機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)是一門人工智能科學(xué),研究如何在經(jīng)驗學(xué)習(xí)中改善具體算法的性能。機(jī)器學(xué)習(xí)的核心是通過算法來學(xué)習(xí)和提取數(shù)據(jù)中的隱含規(guī)律,隨著數(shù)據(jù)豐富程度和學(xué)習(xí)次數(shù)的增加,學(xué)習(xí)的目標(biāo)函數(shù)的效果會持續(xù)提升。機(jī)器學(xué)習(xí)算法體系包括監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等,詳見圖1-1。

023-01

圖1-1 機(jī)器學(xué)習(xí)算法體系

目前機(jī)器學(xué)習(xí)領(lǐng)域使用最普遍的scikit-learn庫將機(jī)器學(xué)習(xí)算法分為聚類、分類、回歸和維度削減,此處不展開介紹,感興趣的讀者請參考相關(guān)資料。

1.3.2 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是從大量、不完全、有噪聲、模糊、隨機(jī)的數(shù)據(jù)中提取隱含在其中,人們事先不知道但又有用的信息和知識的過程。

數(shù)據(jù)挖掘的關(guān)鍵詞是“隱含”“事先不知道”“有用的”。如果一個模型規(guī)律是已知的、預(yù)定義的且確定的,僅僅是通過數(shù)據(jù)來校準(zhǔn),則不屬于數(shù)據(jù)挖掘范疇。

數(shù)據(jù)挖掘的對象按信息存儲格式可分為:1)結(jié)構(gòu)化數(shù)據(jù),通常以二維表方式存儲數(shù)據(jù),如關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、數(shù)據(jù)倉庫;2)半結(jié)構(gòu)化數(shù)據(jù),以標(biāo)記語言存儲的數(shù)據(jù),如XML、JSON、HTML等存儲的數(shù)據(jù);3)非結(jié)構(gòu)化數(shù)據(jù),如圖像、語音、文本等。

數(shù)據(jù)挖掘包括聚類分群、分類識別、回歸預(yù)測、關(guān)聯(lián)分析、異常檢測、時間序列等,而基礎(chǔ)數(shù)據(jù)的處理等數(shù)據(jù)工程工作和可視化、最優(yōu)化、預(yù)定義模型等則不屬于數(shù)據(jù)挖掘。數(shù)據(jù)挖掘的范圍如圖1-2所示。

024-01

圖1-2 數(shù)據(jù)挖掘的范圍

1.3.3 數(shù)據(jù)分析

1. 數(shù)據(jù)分析的定義

數(shù)據(jù)分析是一個相對寬泛的概念,我們分別從狹義和廣義的角度進(jìn)行介紹。

(1)狹義角度:基于數(shù)據(jù),按照特定分析思路和框架,提取有價值的信息。狹義的數(shù)據(jù)分析可以基于建模、基于指標(biāo)計算,也可以基于數(shù)據(jù)可視化報表。

(2)廣義角度:還包含數(shù)據(jù)工程和數(shù)據(jù)處理,例如定義數(shù)據(jù)模型、數(shù)據(jù)架構(gòu)、數(shù)據(jù)處理,寫SQL計算指標(biāo)等。

通常來說,數(shù)據(jù)分析僅指“分析”,不含“處理”,也不含“工程”,數(shù)據(jù)分析的核心本質(zhì)是從數(shù)據(jù)到信息、從信息到?jīng)Q策的過程。

2. 數(shù)據(jù)分析的思維模式

數(shù)據(jù)分析的思維方式有兩種,下面分別進(jìn)行介紹。

(1)自下而上的數(shù)據(jù)驅(qū)動。獲得數(shù)據(jù)后,從數(shù)據(jù)出發(fā),分析并挖掘有用的信息,用于輔助決策。

(2)自上而下的問題或目標(biāo)驅(qū)動。在業(yè)務(wù)上發(fā)現(xiàn)特定問題或制訂特定業(yè)務(wù)目標(biāo),需要通過數(shù)據(jù)挖掘背后原因,支持決策依據(jù),形成行動方案。

3. 數(shù)據(jù)分析與數(shù)據(jù)運(yùn)營的聯(lián)系和區(qū)別

數(shù)據(jù)分析和數(shù)據(jù)運(yùn)營都是通過數(shù)據(jù)來支撐業(yè)務(wù)需求的。數(shù)據(jù)分析相比于數(shù)據(jù)運(yùn)營是一個更大范圍的概念,傾向于強(qiáng)調(diào)分析技術(shù)的方法屬性,關(guān)注分析過程以及分析所帶來的價值,例如輔助決策。

數(shù)據(jù)運(yùn)營關(guān)注具體的行動執(zhí)行和運(yùn)營過程,更強(qiáng)調(diào)業(yè)務(wù)屬性,面向特定業(yè)務(wù)場景中具體的運(yùn)營問題,例如用戶運(yùn)營、產(chǎn)品運(yùn)營、流量運(yùn)營、內(nèi)容運(yùn)營等。

4. 數(shù)據(jù)分析與數(shù)據(jù)工程的聯(lián)系和區(qū)別

數(shù)據(jù)分析更關(guān)注分析,雖然很大一部分工作是和數(shù)據(jù)處理、指標(biāo)計算相關(guān)的。

數(shù)據(jù)工程更關(guān)注工程角度,例如數(shù)據(jù)模型定義、數(shù)據(jù)庫管理、數(shù)據(jù)體系架構(gòu)等,更關(guān)注數(shù)據(jù)如何通過管理和邏輯設(shè)計提高系統(tǒng)性能,以便提供基礎(chǔ)設(shè)施的建設(shè)和運(yùn)行保障,滿足業(yè)務(wù)運(yùn)營和數(shù)據(jù)分析的需求。

1.3.4 統(tǒng)計分析

統(tǒng)計分析屬于傳統(tǒng)學(xué)科,與概率論和數(shù)理統(tǒng)計密不可分,通常數(shù)據(jù)都是帶有隨機(jī)因素的,通過數(shù)據(jù)揭示事物規(guī)律。統(tǒng)計實驗設(shè)計也屬于該范疇。

統(tǒng)計分析按照層次可以分為:1)描述性統(tǒng)計,揭示數(shù)據(jù)分布規(guī)律以及數(shù)據(jù)的統(tǒng)計可視化;2)診斷分析性統(tǒng)計,包括參數(shù)估計、假設(shè)檢驗、回歸模型、邏輯回歸、相關(guān)分析、主成分分析等。

統(tǒng)計思維通常基于特定假設(shè)(而后還需要進(jìn)行假設(shè)檢驗),例如樣本獨立同分布、服從正態(tài)分布等。統(tǒng)計分析適合小數(shù)據(jù)量問題的分析,是統(tǒng)計機(jī)器學(xué)習(xí)的理論基礎(chǔ)。

1.3.5 四者之間的聯(lián)系與區(qū)別

1.3.1節(jié)~1.3.4節(jié)介紹了機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、數(shù)據(jù)分析、統(tǒng)計分析的定義和特征,下面簡單介紹一下四者之間的聯(lián)系和區(qū)別。

1)統(tǒng)計分析為機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、數(shù)據(jù)分析提供了分析的工具、方法和手段。

2)機(jī)器學(xué)習(xí)可以基于統(tǒng)計分析,也可以不基于,例如人工智能的符號主義和連接主義、決策樹模型就不是統(tǒng)計類模型(雖然用到了統(tǒng)計計數(shù),但和回歸模型有本質(zhì)區(qū)別),神經(jīng)網(wǎng)絡(luò)模型也不是統(tǒng)計類模型。

3)機(jī)器學(xué)習(xí)是數(shù)據(jù)挖掘的工具,數(shù)據(jù)挖掘是機(jī)器學(xué)習(xí)的應(yīng)用。機(jī)器學(xué)習(xí)更強(qiáng)調(diào)底層技術(shù),數(shù)據(jù)挖掘更貼合業(yè)務(wù);與此類似的概念還有自然語言處理與文本挖掘。

4)數(shù)據(jù)分析可以基于統(tǒng)計分析,也可以不基于。統(tǒng)計分析只是數(shù)據(jù)分析的一部分,只要是能夠提供基于數(shù)據(jù)提取信息形成決策的,都屬于數(shù)據(jù)分析,例如基于業(yè)務(wù)指標(biāo)報表的分析等。

主站蜘蛛池模板: 昂仁县| 兰西县| 锦屏县| 简阳市| 西丰县| 咸宁市| 新巴尔虎左旗| 萝北县| 成都市| 吴堡县| 揭西县| 大港区| 博爱县| 新平| 江源县| 大连市| 呼和浩特市| 西安市| 眉山市| 耒阳市| 常德市| 上高县| 三台县| 马尔康县| 香港 | 公主岭市| 葵青区| 柳州市| 阳西县| 登封市| 永定县| 福州市| 金坛市| 南陵县| 沂源县| 阳曲县| 昭苏县| 浦北县| 繁昌县| 资兴市| 汾西县|