官术网_书友最值得收藏!

1.3 數(shù)據(jù)科學(xué)家的工作

行業(yè)內(nèi)大部分?jǐn)?shù)據(jù)科學(xué)家接受過統(tǒng)計(jì)學(xué)、數(shù)學(xué)和計(jì)算機(jī)科學(xué)方面的高級訓(xùn)練,所涉獵的領(lǐng)域之廣可延伸至數(shù)據(jù)可視化、數(shù)據(jù)挖掘和信息管理。數(shù)據(jù)科學(xué)家的首要任務(wù)是提出正確的問題——目的是揭示隱藏在數(shù)據(jù)中的真相,以此幫助企業(yè)做出更明智的商業(yè)決策。

數(shù)據(jù)科學(xué)家的工作并不局限于某一特定領(lǐng)域。除科學(xué)研究之外,他們還就職于航運(yùn)、醫(yī)療保健、電子商務(wù)、航空、金融和教育等多個領(lǐng)域。他們的首項(xiàng)工作是理解業(yè)務(wù)問題,接著進(jìn)行數(shù)據(jù)收集、數(shù)據(jù)讀取、數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)可視化、建模、模型評估,最后部署使用。數(shù)據(jù)科學(xué)家的工作周期如圖1-5所示。

圖1-5 數(shù)據(jù)科學(xué)家的工作周期

數(shù)據(jù)科學(xué)家80%的工作時間用來收集、清洗和整理數(shù)據(jù),留給數(shù)據(jù)分析的僅有余下的20%。雖然準(zhǔn)備數(shù)據(jù)的過程非常耗時和無趣,但是正確地處理數(shù)據(jù)至關(guān)重要,因?yàn)橛脕順?gòu)建模型的數(shù)據(jù)質(zhì)量與模型的準(zhǔn)確性密切相關(guān)。此外,模型的效果會隨著數(shù)據(jù)量的增加得到提升,因此數(shù)據(jù)科學(xué)家在數(shù)據(jù)分析時應(yīng)該盡可能多地增加有效數(shù)據(jù)量。

在后續(xù)章節(jié)中,讀者將更加詳細(xì)地了解以上所提及的成為一名數(shù)據(jù)科學(xué)家的全部必備技能。

主站蜘蛛池模板: 商洛市| 枞阳县| 南投县| 富蕴县| 东兴市| 大庆市| 綦江县| 南和县| 桃江县| 军事| 灌云县| 廉江市| 城固县| 达拉特旗| 夏邑县| 安阳县| 富民县| 轮台县| 宿州市| 蒙阴县| 平顶山市| 舒城县| 中阳县| 德清县| 天气| 山阳县| 长顺县| 临桂县| 西华县| 北辰区| 积石山| 云安县| 罗源县| 昌邑市| 牙克石市| 仁怀市| 德化县| 册亨县| 望奎县| 定安县| 锦州市|