官术网_书友最值得收藏!

第1篇 數(shù)據(jù)科學(xué)項(xiàng)目之戰(zhàn)壕篇

第1章 數(shù)據(jù)科學(xué)項(xiàng)目的概念

1.1 數(shù)據(jù)科學(xué)概述

在介紹數(shù)據(jù)科學(xué)項(xiàng)目之前,我們先來(lái)介紹一下數(shù)據(jù)科學(xué)。如果你還不了解數(shù)據(jù)科學(xué),那么就通過(guò)以下內(nèi)容一探究竟吧!

1.1.1 產(chǎn)生背景

從線下活動(dòng)到線上活動(dòng),從PC互聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng)再到物聯(lián)網(wǎng)(IoT),人類(lèi)社會(huì)產(chǎn)生的可收集數(shù)據(jù)的體量呈指數(shù)級(jí)增長(zhǎng)。比如人們?nèi)粘I暇W(wǎng)“沖浪”,就會(huì)留下許許多多的“足印”。

瀏覽的網(wǎng)頁(yè)

在網(wǎng)頁(yè)上逗留的時(shí)間

點(diǎn)擊的鏈接

在社交網(wǎng)站上發(fā)表的內(nèi)容

與之進(jìn)行互動(dòng)的人或組織

點(diǎn)贊的內(nèi)容

即便只采集某一天的“足印”,這些數(shù)據(jù)的體量也是非常巨大的——如果用 A4紙將這些數(shù)據(jù)以默認(rèn)的正文字體和字號(hào)進(jìn)行打印,然后一張張堆積起來(lái),高度堪比從地球到月球的距離。

再來(lái)看幾組數(shù)據(jù):2017年,全球 IDC 市場(chǎng)規(guī)模再創(chuàng)歷史新高,達(dá)到534.7億美元;據(jù)TalkingData 2018年第二季度的數(shù)據(jù)統(tǒng)計(jì),中國(guó)已經(jīng)擁有15.1億智能手機(jī)用戶(hù),使用智能手表等可穿戴設(shè)備的用戶(hù)數(shù)量也已經(jīng)達(dá)到千萬(wàn)級(jí),同時(shí)各種傳感器的使用數(shù)量超過(guò)了80億。智能設(shè)備無(wú)處不在,正在隨時(shí)隨地產(chǎn)生各種維度的數(shù)據(jù)。

數(shù)據(jù)量級(jí)不斷增長(zhǎng),數(shù)據(jù)維度不斷增加,數(shù)據(jù)類(lèi)型日益復(fù)雜,這些變化一方面讓新的業(yè)務(wù)模式成為可能,另外一方面也讓傳統(tǒng)的數(shù)據(jù)處理工具捉襟見(jiàn)肘。人們?cè)诔磷碛诖髷?shù)據(jù)紅利的同時(shí),也被大數(shù)據(jù)所淹沒(méi)——我們?cè)谒季S方式、工程能力、管理手段、技術(shù)工具等方面都面臨重大挑戰(zhàn),我們需要通過(guò)新的方法來(lái)解決問(wèn)題,以便更好地從數(shù)據(jù)之海中獲取洞察力,指導(dǎo)決策。

因此,數(shù)據(jù)科學(xué)應(yīng)運(yùn)而生,它將深刻地改變企業(yè)的決策方式。

1.1.2 概念定義

如今許多產(chǎn)品或服務(wù)中都有數(shù)據(jù)科學(xué)的身影,例如廣告推薦、食品藥品安全質(zhì)量檢測(cè)、電影票房預(yù)測(cè)、潛在客戶(hù)尋找等。

那么,什么是數(shù)據(jù)科學(xué)呢?

“數(shù)據(jù)科學(xué)”一詞在20世紀(jì)60年代至80年代間經(jīng)常出現(xiàn)在計(jì)算機(jī)科學(xué)文獻(xiàn)中。然而,直到20世紀(jì)90年代后期,這個(gè)詞才開(kāi)始時(shí)常出現(xiàn)在統(tǒng)計(jì)和數(shù)據(jù)挖掘領(lǐng)域。

2001年,數(shù)據(jù)科學(xué)成為獨(dú)立學(xué)科,橫跨計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、數(shù)學(xué)、軟件工程等多個(gè)領(lǐng)域,從定義與解決實(shí)際問(wèn)題出發(fā),經(jīng)過(guò)描述、發(fā)現(xiàn)、預(yù)測(cè)、建議四個(gè)環(huán)節(jié),從數(shù)據(jù)中獲得洞察力,從而解決問(wèn)題。

傳統(tǒng)領(lǐng)域中也有和數(shù)據(jù)科學(xué)相似的概念,例如高級(jí)分析(Advanced Analytics)、數(shù)據(jù)挖掘(Data Mining)、預(yù)測(cè)分析(Predictive Analytics)等,但是數(shù)據(jù)科學(xué)可以應(yīng)對(duì)更大的數(shù)據(jù)量級(jí)和更復(fù)雜的數(shù)據(jù)類(lèi)型。如今,關(guān)于數(shù)據(jù)科學(xué)的文章數(shù)不勝數(shù),而數(shù)據(jù)科學(xué)家也被認(rèn)為是“21世紀(jì)最性感的職業(yè)”。

數(shù)據(jù)科學(xué)是將數(shù)據(jù)轉(zhuǎn)化為行動(dòng)的藝術(shù),這種轉(zhuǎn)化主要通過(guò)開(kāi)發(fā)數(shù)據(jù)產(chǎn)品來(lái)完成。數(shù)據(jù)科學(xué)產(chǎn)生的數(shù)據(jù)產(chǎn)品可以提供可執(zhí)行的信息,如金融工具的買(mǎi)/賣(mài)策略、提高產(chǎn)品收益率的措施、改進(jìn)產(chǎn)品營(yíng)銷(xiāo)的步驟等,而無(wú)須將底層數(shù)據(jù)暴露給決策者。

數(shù)據(jù)產(chǎn)品能回答以下問(wèn)題:應(yīng)該對(duì)哪些產(chǎn)品進(jìn)行更多的廣告宣傳來(lái)提高利潤(rùn)?如何在降低成本的同時(shí)改進(jìn)合規(guī)計(jì)劃?采用什么制造工藝才能實(shí)現(xiàn)一個(gè)更好的產(chǎn)品?而回答這些問(wèn)題的關(guān)鍵在于,了解我們擁有的數(shù)據(jù)以及歸納這些數(shù)據(jù)中包含的信息。

數(shù)據(jù)科學(xué)鼓勵(lì)從演繹推理(基于假設(shè))轉(zhuǎn)向歸納推理(基于模式)。通過(guò)數(shù)據(jù)科學(xué)操作得到的大量數(shù)據(jù)之間的相關(guān)性取代了因果關(guān)系和嚴(yán)格的理論模型,基于這些相關(guān)性,我們可以獲得新的洞察力。相對(duì)于傳統(tǒng)分析方法,這是一個(gè)根本性改變。歸納推理提供了一種形成假設(shè)并發(fā)現(xiàn)新的分析路徑的手段,模型不再是靜態(tài)的,它們將不斷被測(cè)試、更新和改進(jìn),直到變得更好。

為了高效探索數(shù)據(jù)中的價(jià)值,我們需要數(shù)據(jù)分析技術(shù)和數(shù)據(jù)工程的配合。數(shù)據(jù)分析是對(duì)特定的數(shù)據(jù)進(jìn)行分析和洞察的行為。如果說(shuō)數(shù)據(jù)科學(xué)是工具和方法的房子,那么數(shù)據(jù)分析就是房子中的特定空間。數(shù)據(jù)工程是指利用各種工具、方法或系統(tǒng),高效探索和轉(zhuǎn)化數(shù)據(jù)商業(yè)價(jià)值的工程化技術(shù)。我們常說(shuō)的業(yè)務(wù)數(shù)據(jù)化,其實(shí)就是業(yè)務(wù)的數(shù)據(jù)工程化,即通過(guò)對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行收集、整理、分析,實(shí)現(xiàn)對(duì)業(yè)務(wù)更深入的理解,并最終實(shí)現(xiàn)業(yè)務(wù)的持續(xù)優(yōu)化。

應(yīng)用數(shù)據(jù)科學(xué)的最簡(jiǎn)單的例子是搜索引擎,它將用戶(hù)在搜索中的交互行為數(shù)據(jù)化,然后根據(jù)用戶(hù)停留時(shí)長(zhǎng)、點(diǎn)擊次數(shù)等條件優(yōu)化搜索結(jié)果的展示效果,提升用戶(hù)搜索體驗(yàn),吸引更多的用戶(hù)使用,進(jìn)而產(chǎn)生更多的數(shù)據(jù)用于優(yōu)化。這是一個(gè)數(shù)據(jù)閉環(huán),能夠?qū)崿F(xiàn)持續(xù)的業(yè)務(wù)優(yōu)化。

1.1.3 數(shù)據(jù)科學(xué)也需遵循科學(xué)過(guò)程

數(shù)據(jù)科學(xué)之所以被稱(chēng)為一門(mén)“科學(xué)”,是因?yàn)閿?shù)據(jù)科學(xué)中也蘊(yùn)涵著科學(xué)的因素,其中的任務(wù)要用科學(xué)的方法處理。

數(shù)據(jù)科學(xué)實(shí)踐過(guò)程也需要遵循科學(xué)的方法。圖1-1是以科學(xué)方法為核心的數(shù)據(jù)科學(xué)流程圖,它展示了一個(gè)典型的科學(xué)研究的演繹過(guò)程:一項(xiàng)科學(xué)研究始于對(duì)現(xiàn)實(shí)現(xiàn)象以及前人研究的觀察和思考,通過(guò)思考定義問(wèn)題之后,需要對(duì)問(wèn)題產(chǎn)生的原因形成假設(shè),為了驗(yàn)證假設(shè),科學(xué)人員需要設(shè)計(jì)縝密的試實(shí)驗(yàn),其中就需要盡可能多地采集相關(guān)數(shù)據(jù)并進(jìn)行分析,根據(jù)結(jié)果不斷對(duì)現(xiàn)有的假設(shè)進(jìn)行重定義、更正、擴(kuò)展,甚至推翻(重新假設(shè)),最后總結(jié)出具有實(shí)踐意義的理論。

圖1-1 數(shù)據(jù)科學(xué)流程圖

總結(jié)一下,數(shù)據(jù)科學(xué)的工作流程一般如下。

1.定義問(wèn)題。

2.獲取訓(xùn)練和測(cè)試數(shù)據(jù)。

3.數(shù)據(jù)準(zhǔn)備、清洗。

4.分析,識(shí)別模式,探索數(shù)據(jù)。

5.建立模型,預(yù)測(cè)問(wèn)題,解決問(wèn)題。

6.形成可視化報(bào)告,呈現(xiàn)問(wèn)題解決步驟,找到解決方案。

7.提供或提交結(jié)果。

1.1.4 交付成果

數(shù)據(jù)科學(xué)主要針對(duì)數(shù)據(jù)問(wèn)題以及被數(shù)據(jù)化的現(xiàn)實(shí)問(wèn)題進(jìn)行研究,因此數(shù)據(jù)科學(xué)的交付成果,也可以歸納成為有數(shù)據(jù)科學(xué)特質(zhì)的成果。下面列舉了一些常見(jiàn)的數(shù)據(jù)科學(xué)的交付成果。

基于輸入的值輸出預(yù)測(cè)結(jié)果。

分類(lèi)(如判斷是否是垃圾郵件)。

推薦(如Amazon的商品推薦系統(tǒng))。

模式檢測(cè)和分組(如聚類(lèi))。

異常檢測(cè)(如欺詐檢測(cè))。

識(shí)別(如人臉識(shí)別)。

可實(shí)施的見(jiàn)解(如儀表板、報(bào)告等可視化工具)。

自動(dòng)化流程和決策(如信用卡核準(zhǔn))。

評(píng)分和排名(如FICO評(píng)分)。

分群(如基于人口統(tǒng)計(jì)進(jìn)行的營(yíng)銷(xiāo))。

優(yōu)化(如風(fēng)險(xiǎn)管理)。

預(yù)測(cè)(如銷(xiāo)售和收入)。

可以發(fā)現(xiàn),這些成果都旨在解決一個(gè)特定的問(wèn)題。另外,數(shù)據(jù)科學(xué)交付成果最大的價(jià)值,其實(shí)體現(xiàn)在處理問(wèn)題的思維和方式上,而踐行這樣的思維和方式的,正是在數(shù)據(jù)科學(xué)領(lǐng)域發(fā)揮著聰明才智的人,他們被稱(chēng)為“數(shù)據(jù)科學(xué)家”。

主站蜘蛛池模板: 比如县| 兖州市| 施甸县| 南城县| 晋宁县| 泰来县| 大足县| 固安县| 大石桥市| 阿瓦提县| 北安市| 静安区| 当雄县| 土默特右旗| 英德市| 安丘市| 林甸县| 津市市| 张家港市| 南宫市| 府谷县| 缙云县| 额尔古纳市| 珠海市| 高青县| 宁蒗| 黔江区| 溆浦县| 张家川| 夏邑县| 睢宁县| 铜梁县| 潞城市| 天峨县| 莫力| 远安县| 镇安县| 岳普湖县| 香河县| 图木舒克市| 恩平市|