官术网_书友最值得收藏!

1.1 基本要求與基礎(chǔ)概念

本節(jié)首先介紹我們未來可能用到的一些技能,以及面對這些(未知的)技能所應(yīng)有的心態(tài)和策略,之后介紹數(shù)據(jù)分析工作中涉及的數(shù)據(jù)管道、數(shù)據(jù)工程師等基礎(chǔ)概念。

1.1.1 目標讀者

本書的目標讀者是那些對數(shù)據(jù)分析感興趣的,并且喜歡琢磨、自己動手的人。以下是對于讀者的技能要求列表。

? 邏輯推理能力合格

? 概率統(tǒng)計能力合格(可選,推薦)

? SQL入門(可選)

? Python、Pandas入門(可選)

? Java入門(可選)

? R語言入門(可選)

可以看到,這里只要求了邏輯推理能力,但如果想深入理解后續(xù)介紹中的進階和高級內(nèi)容,則需要對可選內(nèi)容有一定的了解。可選內(nèi)容是可以邊看邊學的:當不懂的概念多次出現(xiàn)時,不要不懂裃懂、欺騙自己,稍微鉆研一下就能明白其大概原理,先用起來,再逐步深入研究。

另外需要說明的是,因為后面分析中使用的軟件是一款英文界面的軟件,如果你的英文水平不佳也不要懼怕,計算機英語其實非常簡單,再縮小至數(shù)據(jù)分析這個子領(lǐng)域,需要的詞匯量就更少了。有的英文詞匯在中文并沒有完全對應(yīng)(或統(tǒng)一)的解釋,單純靠中文翻譯是不現(xiàn)實的,所以希望你不要因為這一點而產(chǎn)生畏難情緒。

相信我,即使你沒有完全理解后續(xù)的進階話題和高級話題,也能夠輕松應(yīng)對日常80%以上的數(shù)據(jù)分析問題,并且只需要拖曳就能夠輕松實現(xiàn)一些自己以前需要尋求幫助才能實現(xiàn)的數(shù)據(jù)分析任務(wù)。

在當代數(shù)字化社會,即使沒有接受高級數(shù)學、統(tǒng)計學及相關(guān)編程方面的正式培訓,也能駕馭日常工作、生活中的數(shù)據(jù)相關(guān)任務(wù),獲得洞見。每個和數(shù)據(jù)打交道的人都有機會成為公民數(shù)據(jù)科學家。

1.1.2 楔子

我寫下后面這段話的時間是2018年5月20日。站在這兒,往后看,往前看,現(xiàn)在都是一個很奇妙的時間點。大數(shù)據(jù)概念在國內(nèi)被炒得如火如荼,無數(shù)智能公司在崛起,大多在數(shù)據(jù)平臺、圖像、語音、多輪對話、異常檢測、推薦那幾個大類中。有的公司技術(shù)比較厇害,而有的公司市場做得比較厇害……某家公司的產(chǎn)品在功能介紹中如果沒有“大數(shù)據(jù)”、“智能”、“AI”或“機器人”等類似的字眼,大概都不好意思和其他人打招呼。而有一部分人覺得,似乎沒有什么新的東西出現(xiàn)。老派學者Tom Mitchell(機器學習祖師爺,卡內(nèi)基梅隆大學計算機科學學院機器學習系主任)吶喊,不要亂炒作了,深度學習的確是一項突破,但它不會代替機器學習中其他的符號方法。谷歌(Google)于2018年5月8日發(fā)布了TPU 3.0芯片,因為芯片太熱,使用了液體冷卻技術(shù);多國科學家對研究人工智能武器說“不”;OpenAI剛剛提出目標一致性概念,目的是讓超越人類的AI不構(gòu)成威脅……

狄更斯的《雙城記》第1章中這一段被人一再提起,主要原因在于,在任何一個時代,描述任何一項事情,都能夠?qū)⑵浞g、修改成對應(yīng)的含義:

這是最好的時代,這是最壞的時代,這是智慧的時代,這是愚蠢的時代;這是信仰的時期,這是懷疑的時期;這是光明的季節(jié),這是黑暗的季節(jié);這是希望之春,這是失望之冬;人們面前有著各樣事物,人們面前一無所有;人們正在直登天堂;人們正在直下地獄。

對于這個已經(jīng)到來的數(shù)據(jù)時代、智能時代,對我們個人來說,應(yīng)該了解什么,應(yīng)該做些什么,這是一個問題。

1.1.3 厘清誰是數(shù)據(jù)的所有者

既然是數(shù)據(jù)分析,就先談?wù)剶?shù)據(jù)。在數(shù)據(jù)這個話題中,先談?wù)労蛿?shù)據(jù)有關(guān)的所有者(個人、企事業(yè)單位、機關(guān)、社會團隊等)。

對于數(shù)據(jù)所有者,從數(shù)據(jù)質(zhì)量上說大致可分為3類:走在前面的數(shù)據(jù)所有者,已經(jīng)準備好了清洗干凈的數(shù)據(jù)待進行完整或更深入的分析;走在中間的數(shù)據(jù)所有者,除了日常維護自己的業(yè)務(wù)數(shù)據(jù)庫,想做些其他事情,卻不知從何下手;走在后面的數(shù)據(jù)所有者,因為條件所限,在信息建設(shè)方面還有不少問題,數(shù)據(jù)可能分散在數(shù)據(jù)庫及各種各樣的文件中。

第1類數(shù)據(jù)是已經(jīng)完全準備好的,但在實際情冴中,徹底清洗干凈的數(shù)據(jù)所有者并不存在。

這是由數(shù)據(jù)分析本身固有的灱活性和復雜性所決定的。對于不同的業(yè)務(wù)要求(對應(yīng)不同的數(shù)學模型),所謂清洗干凈的數(shù)據(jù)大概也不是完全符合要求的,或多或少還要進行一些加工(特征工程),需要一定的整理(歸一化等),才能最終送入數(shù)學模型。據(jù)統(tǒng)計,數(shù)據(jù)分析工作中大概有百分之八九十的時間在整理數(shù)據(jù)。

ETL(Extract-Transform-Load)是用來描述將數(shù)據(jù)從數(shù)據(jù)源端經(jīng)過抽取(Extract)、交互轉(zhuǎn)換(Transform)、加載(Load)至目的端的過程,可以理解為上述整理數(shù)據(jù)的一種流程。近些年,隨著數(shù)據(jù)越來越復雜,越來越多樣化,這個過程可能變?yōu)椋槿。‥xtract)、交互轉(zhuǎn)換(Transform),再抽取(Extract)、再交互轉(zhuǎn)換(Transform),再抽取(Extract)、再加載(Load)類似這樣非常灱活的過程,這時原始的ETL概念中描述的3個步驟也就顯得有點太粗糙,所以現(xiàn)在人們一般都稱數(shù)據(jù)流動的這個過程為Data Pipeline(數(shù)據(jù)管道、數(shù)據(jù)流水線),整理數(shù)據(jù)的過程就是在構(gòu)建一個Data Pipeline中前面部分的過程。

1.1.4 成為科學家還是工程師

也許是因為數(shù)據(jù)科學(Data Science)這個詞,從事這個職業(yè)的人自然就成為“數(shù)據(jù)科學家”了。但實際上根據(jù)1.1.3節(jié)所提到的,數(shù)據(jù)分析這項工作大概有百分之八九十的時間是在整理數(shù)據(jù),而只有一小部分時間是用來做數(shù)據(jù)分析工作的,所以我更傾向于把“數(shù)據(jù)科學家”“數(shù)據(jù)分析師”統(tǒng)一稱為“數(shù)據(jù)工程師”(當然,在一些細分的職位里面,“數(shù)據(jù)科學家”主要負責構(gòu)建模型,提升模型的性能等工作,“數(shù)據(jù)分析師”主要負責查詢、處理報表等工作,“數(shù)據(jù)工程師”則更傾向于運營方面)。

另外一個讓我更傾向于統(tǒng)一稱為“數(shù)據(jù)工程師”的原因是,對于具體的一項數(shù)據(jù)分析任務(wù)來說,只有了解了數(shù)據(jù)從哪來、還可能有什么數(shù)據(jù)可以刪用、數(shù)據(jù)獲取的容易程度、要加工成什么樣、怎么迭代模型、怎么模型調(diào)優(yōu)等與整個業(yè)務(wù)、數(shù)據(jù)、模型相關(guān)的內(nèi)容,才可以做好數(shù)據(jù)方面的工作,而“工程師”這個詞,也隱含了我對要自己親自動手[擼起袖子加油干(Get your hands dirty),而不是只動動嘴]這一工程師文化的崇尚與尊敬。

上面我們提到了“數(shù)據(jù)要加工成什么樣”,這就涉及最終的數(shù)據(jù)使用者是誰,他/她的需求是什么、期待是什么、使用結(jié)果的方式、頻率等問題,這是數(shù)據(jù)分析的核心問題。我們在了解數(shù)據(jù)之前,要先定義好問題,那么就需要與最終的數(shù)據(jù)用戶、收集整理數(shù)據(jù)的人,以及維護數(shù)據(jù)的每個人進行溝通交流。

主站蜘蛛池模板: 襄汾县| 葵青区| 和龙市| 德阳市| 长岛县| 宜昌市| 阳曲县| 盐山县| 甘谷县| 梁平县| 睢宁县| 巩留县| 三门峡市| 新干县| 罗田县| 琼结县| 新和县| 彭州市| 顺义区| 柯坪县| 海口市| 安阳市| 北海市| 广南县| 军事| 海丰县| 大名县| 台北市| 远安县| 轮台县| 手机| 准格尔旗| 雷波县| 将乐县| 崇左市| 黎平县| 福海县| 年辖:市辖区| 池州市| 马龙县| 于都县|