- Jupyter數(shù)據(jù)科學(xué)實(shí)戰(zhàn)
- (印)普拉泰克·古普塔
- 453字
- 2020-11-21 11:56:30
1.3 數(shù)據(jù)科學(xué)家的工作
行業(yè)內(nèi)大部分?jǐn)?shù)據(jù)科學(xué)家接受過統(tǒng)計(jì)學(xué)、數(shù)學(xué)和計(jì)算機(jī)科學(xué)方面的高級訓(xùn)練,所涉獵的領(lǐng)域之廣可延伸至數(shù)據(jù)可視化、數(shù)據(jù)挖掘和信息管理。數(shù)據(jù)科學(xué)家的首要任務(wù)是提出正確的問題——目的是揭示隱藏在數(shù)據(jù)中的真相,以此幫助企業(yè)做出更明智的商業(yè)決策。
數(shù)據(jù)科學(xué)家的工作并不局限于某一特定領(lǐng)域。除科學(xué)研究之外,他們還就職于航運(yùn)、醫(yī)療保健、電子商務(wù)、航空、金融和教育等多個領(lǐng)域。他們的首項(xiàng)工作是理解業(yè)務(wù)問題,接著進(jìn)行數(shù)據(jù)收集、數(shù)據(jù)讀取、數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)可視化、建模、模型評估,最后部署使用。數(shù)據(jù)科學(xué)家的工作周期如圖1-5所示。

圖1-5 數(shù)據(jù)科學(xué)家的工作周期
數(shù)據(jù)科學(xué)家80%的工作時間用來收集、清洗和整理數(shù)據(jù),留給數(shù)據(jù)分析的僅有余下的20%。雖然準(zhǔn)備數(shù)據(jù)的過程非常耗時和無趣,但是正確地處理數(shù)據(jù)至關(guān)重要,因?yàn)橛脕順?gòu)建模型的數(shù)據(jù)質(zhì)量與模型的準(zhǔn)確性密切相關(guān)。此外,模型的效果會隨著數(shù)據(jù)量的增加得到提升,因此數(shù)據(jù)科學(xué)家在數(shù)據(jù)分析時應(yīng)該盡可能多地增加有效數(shù)據(jù)量。
在后續(xù)章節(jié)中,讀者將更加詳細(xì)地了解以上所提及的成為一名數(shù)據(jù)科學(xué)家的全部必備技能。
- 數(shù)據(jù)庫系統(tǒng)原理及MySQL應(yīng)用教程(第2版)
- 自己動手實(shí)現(xiàn)Lua:虛擬機(jī)、編譯器和標(biāo)準(zhǔn)庫
- Mastering QGIS
- PyTorch Artificial Intelligence Fundamentals
- Learn Programming in Python with Cody Jackson
- Learn Scala Programming
- Podman實(shí)戰(zhàn)
- Elasticsearch for Hadoop
- Haxe Game Development Essentials
- Go語言精進(jìn)之路:從新手到高手的編程思想、方法和技巧(2)
- Python3.5從零開始學(xué)
- AV1視頻編解碼標(biāo)準(zhǔn):原理與算法實(shí)現(xiàn)
- 并行編程方法與優(yōu)化實(shí)踐
- Python物理建模初學(xué)者指南(第2版)
- PostgreSQL 12 High Availability Cookbook