- 數(shù)據(jù)科學(xué)實(shí)戰(zhàn)指南
- TalkingData
- 25字
- 2019-06-19 15:56:20
第1篇 數(shù)據(jù)科學(xué)項(xiàng)目之戰(zhàn)壕篇
第1章 數(shù)據(jù)科學(xué)項(xiàng)目的概念
1.1 數(shù)據(jù)科學(xué)概述
在介紹數(shù)據(jù)科學(xué)項(xiàng)目之前,我們先來(lái)介紹一下數(shù)據(jù)科學(xué)。如果你還不了解數(shù)據(jù)科學(xué),那么就通過(guò)以下內(nèi)容一探究竟吧!
1.1.1 產(chǎn)生背景
從線下活動(dòng)到線上活動(dòng),從PC互聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng)再到物聯(lián)網(wǎng)(IoT),人類(lèi)社會(huì)產(chǎn)生的可收集數(shù)據(jù)的體量呈指數(shù)級(jí)增長(zhǎng)。比如人們?nèi)粘I暇W(wǎng)“沖浪”,就會(huì)留下許許多多的“足印”。
瀏覽的網(wǎng)頁(yè)
在網(wǎng)頁(yè)上逗留的時(shí)間
點(diǎn)擊的鏈接
在社交網(wǎng)站上發(fā)表的內(nèi)容
與之進(jìn)行互動(dòng)的人或組織
點(diǎn)贊的內(nèi)容
即便只采集某一天的“足印”,這些數(shù)據(jù)的體量也是非常巨大的——如果用 A4紙將這些數(shù)據(jù)以默認(rèn)的正文字體和字號(hào)進(jìn)行打印,然后一張張堆積起來(lái),高度堪比從地球到月球的距離。
再來(lái)看幾組數(shù)據(jù):2017年,全球 IDC 市場(chǎng)規(guī)模再創(chuàng)歷史新高,達(dá)到534.7億美元;據(jù)TalkingData 2018年第二季度的數(shù)據(jù)統(tǒng)計(jì),中國(guó)已經(jīng)擁有15.1億智能手機(jī)用戶(hù),使用智能手表等可穿戴設(shè)備的用戶(hù)數(shù)量也已經(jīng)達(dá)到千萬(wàn)級(jí),同時(shí)各種傳感器的使用數(shù)量超過(guò)了80億。智能設(shè)備無(wú)處不在,正在隨時(shí)隨地產(chǎn)生各種維度的數(shù)據(jù)。
數(shù)據(jù)量級(jí)不斷增長(zhǎng),數(shù)據(jù)維度不斷增加,數(shù)據(jù)類(lèi)型日益復(fù)雜,這些變化一方面讓新的業(yè)務(wù)模式成為可能,另外一方面也讓傳統(tǒng)的數(shù)據(jù)處理工具捉襟見(jiàn)肘。人們?cè)诔磷碛诖髷?shù)據(jù)紅利的同時(shí),也被大數(shù)據(jù)所淹沒(méi)——我們?cè)谒季S方式、工程能力、管理手段、技術(shù)工具等方面都面臨重大挑戰(zhàn),我們需要通過(guò)新的方法來(lái)解決問(wèn)題,以便更好地從數(shù)據(jù)之海中獲取洞察力,指導(dǎo)決策。
因此,數(shù)據(jù)科學(xué)應(yīng)運(yùn)而生,它將深刻地改變企業(yè)的決策方式。
1.1.2 概念定義
如今許多產(chǎn)品或服務(wù)中都有數(shù)據(jù)科學(xué)的身影,例如廣告推薦、食品藥品安全質(zhì)量檢測(cè)、電影票房預(yù)測(cè)、潛在客戶(hù)尋找等。
那么,什么是數(shù)據(jù)科學(xué)呢?
“數(shù)據(jù)科學(xué)”一詞在20世紀(jì)60年代至80年代間經(jīng)常出現(xiàn)在計(jì)算機(jī)科學(xué)文獻(xiàn)中。然而,直到20世紀(jì)90年代后期,這個(gè)詞才開(kāi)始時(shí)常出現(xiàn)在統(tǒng)計(jì)和數(shù)據(jù)挖掘領(lǐng)域。
2001年,數(shù)據(jù)科學(xué)成為獨(dú)立學(xué)科,橫跨計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、數(shù)學(xué)、軟件工程等多個(gè)領(lǐng)域,從定義與解決實(shí)際問(wèn)題出發(fā),經(jīng)過(guò)描述、發(fā)現(xiàn)、預(yù)測(cè)、建議四個(gè)環(huán)節(jié),從數(shù)據(jù)中獲得洞察力,從而解決問(wèn)題。
傳統(tǒng)領(lǐng)域中也有和數(shù)據(jù)科學(xué)相似的概念,例如高級(jí)分析(Advanced Analytics)、數(shù)據(jù)挖掘(Data Mining)、預(yù)測(cè)分析(Predictive Analytics)等,但是數(shù)據(jù)科學(xué)可以應(yīng)對(duì)更大的數(shù)據(jù)量級(jí)和更復(fù)雜的數(shù)據(jù)類(lèi)型。如今,關(guān)于數(shù)據(jù)科學(xué)的文章數(shù)不勝數(shù),而數(shù)據(jù)科學(xué)家也被認(rèn)為是“21世紀(jì)最性感的職業(yè)”。
數(shù)據(jù)科學(xué)是將數(shù)據(jù)轉(zhuǎn)化為行動(dòng)的藝術(shù),這種轉(zhuǎn)化主要通過(guò)開(kāi)發(fā)數(shù)據(jù)產(chǎn)品來(lái)完成。數(shù)據(jù)科學(xué)產(chǎn)生的數(shù)據(jù)產(chǎn)品可以提供可執(zhí)行的信息,如金融工具的買(mǎi)/賣(mài)策略、提高產(chǎn)品收益率的措施、改進(jìn)產(chǎn)品營(yíng)銷(xiāo)的步驟等,而無(wú)須將底層數(shù)據(jù)暴露給決策者。
數(shù)據(jù)產(chǎn)品能回答以下問(wèn)題:應(yīng)該對(duì)哪些產(chǎn)品進(jìn)行更多的廣告宣傳來(lái)提高利潤(rùn)?如何在降低成本的同時(shí)改進(jìn)合規(guī)計(jì)劃?采用什么制造工藝才能實(shí)現(xiàn)一個(gè)更好的產(chǎn)品?而回答這些問(wèn)題的關(guān)鍵在于,了解我們擁有的數(shù)據(jù)以及歸納這些數(shù)據(jù)中包含的信息。
數(shù)據(jù)科學(xué)鼓勵(lì)從演繹推理(基于假設(shè))轉(zhuǎn)向歸納推理(基于模式)。通過(guò)數(shù)據(jù)科學(xué)操作得到的大量數(shù)據(jù)之間的相關(guān)性取代了因果關(guān)系和嚴(yán)格的理論模型,基于這些相關(guān)性,我們可以獲得新的洞察力。相對(duì)于傳統(tǒng)分析方法,這是一個(gè)根本性改變。歸納推理提供了一種形成假設(shè)并發(fā)現(xiàn)新的分析路徑的手段,模型不再是靜態(tài)的,它們將不斷被測(cè)試、更新和改進(jìn),直到變得更好。
為了高效探索數(shù)據(jù)中的價(jià)值,我們需要數(shù)據(jù)分析技術(shù)和數(shù)據(jù)工程的配合。數(shù)據(jù)分析是對(duì)特定的數(shù)據(jù)進(jìn)行分析和洞察的行為。如果說(shuō)數(shù)據(jù)科學(xué)是工具和方法的房子,那么數(shù)據(jù)分析就是房子中的特定空間。數(shù)據(jù)工程是指利用各種工具、方法或系統(tǒng),高效探索和轉(zhuǎn)化數(shù)據(jù)商業(yè)價(jià)值的工程化技術(shù)。我們常說(shuō)的業(yè)務(wù)數(shù)據(jù)化,其實(shí)就是業(yè)務(wù)的數(shù)據(jù)工程化,即通過(guò)對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行收集、整理、分析,實(shí)現(xiàn)對(duì)業(yè)務(wù)更深入的理解,并最終實(shí)現(xiàn)業(yè)務(wù)的持續(xù)優(yōu)化。
應(yīng)用數(shù)據(jù)科學(xué)的最簡(jiǎn)單的例子是搜索引擎,它將用戶(hù)在搜索中的交互行為數(shù)據(jù)化,然后根據(jù)用戶(hù)停留時(shí)長(zhǎng)、點(diǎn)擊次數(shù)等條件優(yōu)化搜索結(jié)果的展示效果,提升用戶(hù)搜索體驗(yàn),吸引更多的用戶(hù)使用,進(jìn)而產(chǎn)生更多的數(shù)據(jù)用于優(yōu)化。這是一個(gè)數(shù)據(jù)閉環(huán),能夠?qū)崿F(xiàn)持續(xù)的業(yè)務(wù)優(yōu)化。
1.1.3 數(shù)據(jù)科學(xué)也需遵循科學(xué)過(guò)程
數(shù)據(jù)科學(xué)之所以被稱(chēng)為一門(mén)“科學(xué)”,是因?yàn)閿?shù)據(jù)科學(xué)中也蘊(yùn)涵著科學(xué)的因素,其中的任務(wù)要用科學(xué)的方法處理。
數(shù)據(jù)科學(xué)實(shí)踐過(guò)程也需要遵循科學(xué)的方法。圖1-1是以科學(xué)方法為核心的數(shù)據(jù)科學(xué)流程圖,它展示了一個(gè)典型的科學(xué)研究的演繹過(guò)程:一項(xiàng)科學(xué)研究始于對(duì)現(xiàn)實(shí)現(xiàn)象以及前人研究的觀察和思考,通過(guò)思考定義問(wèn)題之后,需要對(duì)問(wèn)題產(chǎn)生的原因形成假設(shè),為了驗(yàn)證假設(shè),科學(xué)人員需要設(shè)計(jì)縝密的試實(shí)驗(yàn),其中就需要盡可能多地采集相關(guān)數(shù)據(jù)并進(jìn)行分析,根據(jù)結(jié)果不斷對(duì)現(xiàn)有的假設(shè)進(jìn)行重定義、更正、擴(kuò)展,甚至推翻(重新假設(shè)),最后總結(jié)出具有實(shí)踐意義的理論。

圖1-1 數(shù)據(jù)科學(xué)流程圖
總結(jié)一下,數(shù)據(jù)科學(xué)的工作流程一般如下。
1.定義問(wèn)題。
2.獲取訓(xùn)練和測(cè)試數(shù)據(jù)。
3.數(shù)據(jù)準(zhǔn)備、清洗。
4.分析,識(shí)別模式,探索數(shù)據(jù)。
5.建立模型,預(yù)測(cè)問(wèn)題,解決問(wèn)題。
6.形成可視化報(bào)告,呈現(xiàn)問(wèn)題解決步驟,找到解決方案。
7.提供或提交結(jié)果。
1.1.4 交付成果
數(shù)據(jù)科學(xué)主要針對(duì)數(shù)據(jù)問(wèn)題以及被數(shù)據(jù)化的現(xiàn)實(shí)問(wèn)題進(jìn)行研究,因此數(shù)據(jù)科學(xué)的交付成果,也可以歸納成為有數(shù)據(jù)科學(xué)特質(zhì)的成果。下面列舉了一些常見(jiàn)的數(shù)據(jù)科學(xué)的交付成果。
基于輸入的值輸出預(yù)測(cè)結(jié)果。
分類(lèi)(如判斷是否是垃圾郵件)。
推薦(如Amazon的商品推薦系統(tǒng))。
模式檢測(cè)和分組(如聚類(lèi))。
異常檢測(cè)(如欺詐檢測(cè))。
識(shí)別(如人臉識(shí)別)。
可實(shí)施的見(jiàn)解(如儀表板、報(bào)告等可視化工具)。
自動(dòng)化流程和決策(如信用卡核準(zhǔn))。
評(píng)分和排名(如FICO評(píng)分)。
分群(如基于人口統(tǒng)計(jì)進(jìn)行的營(yíng)銷(xiāo))。
優(yōu)化(如風(fēng)險(xiǎn)管理)。
預(yù)測(cè)(如銷(xiāo)售和收入)。
可以發(fā)現(xiàn),這些成果都旨在解決一個(gè)特定的問(wèn)題。另外,數(shù)據(jù)科學(xué)交付成果最大的價(jià)值,其實(shí)體現(xiàn)在處理問(wèn)題的思維和方式上,而踐行這樣的思維和方式的,正是在數(shù)據(jù)科學(xué)領(lǐng)域發(fā)揮著聰明才智的人,他們被稱(chēng)為“數(shù)據(jù)科學(xué)家”。
- 正則表達(dá)式必知必會(huì)
- 計(jì)算機(jī)信息技術(shù)基礎(chǔ)實(shí)驗(yàn)與習(xí)題
- 企業(yè)大數(shù)據(jù)系統(tǒng)構(gòu)建實(shí)戰(zhàn):技術(shù)、架構(gòu)、實(shí)施與應(yīng)用
- Oracle RAC 11g實(shí)戰(zhàn)指南
- MySQL從入門(mén)到精通(第3版)
- 工業(yè)大數(shù)據(jù)分析算法實(shí)戰(zhàn)
- 文本挖掘:基于R語(yǔ)言的整潔工具
- 商業(yè)分析思維與實(shí)踐:用數(shù)據(jù)分析解決商業(yè)問(wèn)題
- Oracle高性能自動(dòng)化運(yùn)維
- 城市計(jì)算
- OracleDBA實(shí)戰(zhàn)攻略:運(yùn)維管理、診斷優(yōu)化、高可用與最佳實(shí)踐
- AI時(shí)代的數(shù)據(jù)價(jià)值創(chuàng)造:從數(shù)據(jù)底座到大模型應(yīng)用落地
- 數(shù)據(jù)中心數(shù)字孿生應(yīng)用實(shí)踐
- Flutter Projects
- 科研統(tǒng)計(jì)思維與方法:SPSS實(shí)戰(zhàn)