官术网_书友最值得收藏!

前言

在出版了《零基礎(chǔ)學(xué)機(jī)器學(xué)習(xí)》并開設(shè)了極客時(shí)間專欄課程“零基礎(chǔ)實(shí)戰(zhàn)機(jī)器學(xué)習(xí)”之后,我結(jié)識(shí)了不少做數(shù)據(jù)分析、數(shù)據(jù)運(yùn)營的新朋友,也常和大家一起探討數(shù)據(jù)科學(xué)的落地現(xiàn)狀。

我發(fā)現(xiàn)大家對數(shù)據(jù)科學(xué)的學(xué)習(xí)和實(shí)踐充滿熱情,但是,在投入大量的時(shí)間和精力學(xué)習(xí)新技能的同時(shí),大家也存在著諸多疑惑。

討論較多的問題有這么幾個(gè)。

——我正在數(shù)據(jù)分析入門階段,學(xué)了Python,學(xué)了數(shù)據(jù)分析工具,學(xué)了數(shù)據(jù)可視化。書中的代碼都看得明白,程序也會(huì)寫了。但是,數(shù)據(jù)來了,業(yè)務(wù)需求來了,我還是不知道怎樣去做。怎么辦?

——我想知道資深數(shù)據(jù)分析師的成長路徑是什么樣子的。有那么多工具要學(xué),Excel、統(tǒng)計(jì)學(xué)和數(shù)學(xué)、Python/R語言、SQL、Tableau、Power BI這些都要掌握嗎?要掌握到什么程度才算專家?

——作為數(shù)據(jù)分析師,我該如何學(xué)習(xí)機(jī)器學(xué)習(xí),掌握到什么程度才算合適呢?機(jī)器學(xué)習(xí)的相關(guān)數(shù)學(xué)公式太多,資料太難,看不懂怎么辦?好不容易弄懂了一些機(jī)器學(xué)習(xí)算法,卻找不到場景使用。機(jī)器學(xué)習(xí)是不是傳說中的“屠龍之技”啊?

帶著這些問題,我開始了本書的寫作。我的第一個(gè)小目標(biāo)就是要寫一本將技術(shù)聯(lián)系實(shí)際、讓工具全面落地的場景化實(shí)際操作指南。

我感覺僅學(xué)數(shù)據(jù)分析工具本身,如Python“三劍客”(Pandas、NumPy和Matplotlib)的語法(如數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的各種算法),學(xué)習(xí)效果其實(shí)很一般,學(xué)習(xí)過程也味同嚼蠟。這是純知識(shí)導(dǎo)向性學(xué)習(xí)的明顯弊端。

那么,怎么學(xué)才能夠了解數(shù)據(jù)的本質(zhì)和內(nèi)涵,才能夠把學(xué)到的知識(shí)真正落地,才能夠更有效地把工具應(yīng)用到業(yè)務(wù)場景之中?帶著這些疑問,我發(fā)現(xiàn)了數(shù)據(jù)分析的學(xué)習(xí)和實(shí)戰(zhàn)過程中的一個(gè)大秘密:數(shù)據(jù)分析的學(xué)習(xí)一定要結(jié)合業(yè)務(wù)場景,要在場景中實(shí)戰(zhàn),這樣才能夠把工具的價(jià)值最大化,才能夠真正理解知識(shí)、理解數(shù)據(jù)的內(nèi)涵,然后學(xué)會(huì)舉一反三。

沒有真正做到工具、知識(shí)與應(yīng)用的結(jié)合,似乎就是學(xué)習(xí)者們遇見諸多問題的原因,而在業(yè)務(wù)實(shí)戰(zhàn)的具體場景中邊做邊學(xué)應(yīng)該就是解決這些問題的方法。

那么,疑惑再度出現(xiàn),對于一個(gè)新手,或者運(yùn)營經(jīng)驗(yàn)并不豐富的數(shù)據(jù)分析師來說,他們沒有見過那么多的業(yè)務(wù)場景,也就不可能邊做邊學(xué),這個(gè)問題又該怎么解決呢?

沒關(guān)系,這也是我的痛點(diǎn),我也力圖將這一痛點(diǎn)完全解決掉。在這本書中,我會(huì)把一些真實(shí)的業(yè)務(wù)場景展示出來。我會(huì)從用戶故事和具體問題出發(fā),手把手地帶著大家學(xué)習(xí),從問題的出現(xiàn)到理論的分析,再到工具的介紹和使用,直至問題的解決,把知識(shí)扎實(shí)地落地。在這個(gè)過程中,強(qiáng)調(diào)理論、工具和實(shí)戰(zhàn)場景的結(jié)合,我將用簡單的語言和示例講解高級(jí)又有用的技巧。

除了想奉獻(xiàn)給讀者一本實(shí)用、“硬核”的數(shù)據(jù)分析和數(shù)據(jù)運(yùn)營的技術(shù)參考書之外,我還有第二個(gè)小目標(biāo),就是希望這是一本非常有趣的數(shù)據(jù)分析參考書。

王小波說過:“每一本書都應(yīng)該有趣。”可是,現(xiàn)實(shí)世界的真實(shí)情況是大家在學(xué)習(xí)技術(shù)時(shí)感覺太枯燥了,讀書也太累了。所以,我真心希望能夠有一本書帶著大家一起快樂地“玩”數(shù)據(jù)。

而且這個(gè)快樂學(xué)習(xí)的小目標(biāo)與我的“在場景實(shí)戰(zhàn)中學(xué)工具、學(xué)技術(shù)”理念完全不矛盾。只學(xué)編程語言和數(shù)據(jù)分析工具難免枯燥,但是結(jié)合了業(yè)務(wù)場景和用戶故事,大家就能快樂地學(xué)習(xí)了。

為什么這么說呢?因?yàn)橥ㄟ^數(shù)據(jù)分析能夠從數(shù)據(jù)中挖掘出價(jià)值,能夠把這一價(jià)值用漂亮的圖表呈現(xiàn)出來,能夠看到自己的建議驅(qū)動(dòng)了運(yùn)營的增長,還能看到數(shù)據(jù)中隱含的“秘密”,從而給公司業(yè)務(wù)帶來巨大的增量。

數(shù)據(jù)帶來的好處實(shí)實(shí)在在,能看得見。

這本書中沒有什么深?yuàn)W的東西,全都是一些大家能夠讀懂的用戶故事、實(shí)戰(zhàn)案例和Python工具的使用方法。有了它們,數(shù)據(jù)不再是簡單的數(shù)據(jù),而是你的工具,怎么使用它,隨你。

現(xiàn)在一起來看看,表面上普普通通的數(shù)據(jù),在普普通通的運(yùn)營場景中,我們可以“玩”出哪些“花樣”。

在這里,我們用Python對用戶進(jìn)行簡單畫像,發(fā)現(xiàn)一張眼影盤促銷海報(bào)錯(cuò)發(fā)給了不適合它的受眾。

在這里,我們通過收集用戶的行為信息,利用RFM分析判斷用戶的價(jià)值高低,并且預(yù)估一個(gè)用戶會(huì)在該產(chǎn)品上花費(fèi)多少錢。

在這里,我們把各個(gè)營銷渠道排列組合、動(dòng)態(tài)配置,看看是抖音、嗶哩嗶哩(B站)還是小紅書更適合推廣自己的產(chǎn)品。

在這里,我們使用漏斗模型聚焦轉(zhuǎn)化率,看看哪一個(gè)環(huán)節(jié)才是用戶決定使用我們產(chǎn)品的關(guān)鍵。

在這里,我們分析用戶留存和流失的相關(guān)因子,讓用戶的留存曲線一目了然,通過該曲線可以發(fā)現(xiàn)會(huì)員卡中的哪些配套服務(wù)更能留住會(huì)員。

在這里,我們用內(nèi)容分析探索產(chǎn)品的價(jià)值。

在這里,我們用推薦系統(tǒng)找到喜歡的好物。

在這里,我們用A/B測試發(fā)現(xiàn)助力促銷的方法。

在這里,我們用增長實(shí)驗(yàn)尋覓更有效的裂變方案。

寫著寫著,我又發(fā)現(xiàn)書中的內(nèi)容漸漸超越了數(shù)據(jù)分析本身。本書的內(nèi)容逐漸形成了一種方法、一種思路、一個(gè)體系,希望讀者通過對工具的使用養(yǎng)成一種從數(shù)據(jù)中發(fā)掘“蛛絲馬跡”并提取其價(jià)值的思維習(xí)慣。數(shù)據(jù)科學(xué)的從業(yè)者、數(shù)據(jù)分析和運(yùn)營人員需要養(yǎng)成這種思維習(xí)慣,培養(yǎng)自己透過數(shù)據(jù)的表象看清業(yè)務(wù)本質(zhì)的能力,把數(shù)據(jù)轉(zhuǎn)換成實(shí)實(shí)在在的價(jià)值。

在這里,我們對數(shù)據(jù)的推理已經(jīng)超越了傳統(tǒng)的數(shù)據(jù)分析,我把該推理方法稱為“數(shù)據(jù)演繹法”。

在數(shù)據(jù)的世界里,你就是“福爾摩斯”。數(shù)據(jù)中隱藏著什么,由你去發(fā)現(xiàn)。

本書的使用方式

說了這么多,那么作為讀者的你應(yīng)該如何使用這本書,才能讓它的價(jià)值最大化呢?

我的第一個(gè)建議就是動(dòng)手實(shí)踐。真正動(dòng)手做出的東西才是屬于自己的。

此外,我還有另外一個(gè)建議。在開展機(jī)器學(xué)習(xí)的相關(guān)課程后,我從眾多的讀者留言中收獲了大量有價(jià)值的建議,也從中發(fā)現(xiàn)了交互式學(xué)習(xí)的重要性。“教學(xué)相長”是一件非常關(guān)鍵的事情。如果我和眾多讀者一起繼續(xù)打磨書中的實(shí)戰(zhàn)案例,一起優(yōu)化細(xì)節(jié),一起發(fā)掘書中業(yè)務(wù)場景的更多、更好的解決方案,那將是一件十分有意義的事情。

例如,讀者“Shatu”為某些讀者在使用Matplotlib作圖的過程中無法顯示中文字體的問題提供了基于他的運(yùn)行環(huán)境的具體解決方案。

示例:某些讀者使用Matplotlib繪圖時(shí)無法顯示中文字體

解決方案是在繪圖代碼前添加下面的代碼。

不過,因?yàn)椴煌到y(tǒng)環(huán)境的配置也不盡相同,如果讀者遇到類似問題,也可以在互聯(lián)網(wǎng)中搜索其他解決方案。例如先確認(rèn)系統(tǒng)有沒有中文字體,如果沒有,先下載安裝一個(gè)中文字體,然后再進(jìn)行相應(yīng)的設(shè)置。若覺得上述步驟麻煩,可選擇的另外一個(gè)辦法是把要繪制的相應(yīng)文字內(nèi)容轉(zhuǎn)成英文再繪圖。

又如,讀者“在路上”就聚類算法的實(shí)際應(yīng)用場景給出了與自己工作相關(guān)的建議,建議如下。

“我從事游戲行業(yè),會(huì)根據(jù)玩家充值金額來定義大、中、小R值,充值金額區(qū)間的定義全憑經(jīng)驗(yàn),而用今天學(xué)的K-means算法定義充值金額區(qū)間就非常合適。我最近在學(xué)習(xí)大數(shù)據(jù),想統(tǒng)計(jì)HDSF上文件大小的分布情況,也可以用K-means算法。”

這對于一起學(xué)習(xí)的讀者將是十分寶貴的建議。而且有了這些建議,你在學(xué)習(xí)的路上也就不會(huì)感到孤單。正所謂:“獨(dú)樂樂,與人樂樂,孰樂?”

因此,我建議讀者通過下面3種方式來“集體學(xué)習(xí)”本書。

第一,我會(huì)把本書全部的數(shù)據(jù)集和代碼發(fā)布到Github上面,鏈接為https://github.com/huangjia2019/datalogic。大家可以一起維護(hù)、優(yōu)化代碼。

第二,我會(huì)建立本書的讀者微信群,具體的入群方式大家可以在異步圖書網(wǎng)站本書的頁面上找到。大家可以入群一起學(xué)習(xí),交流想法。

第三,雖然目前疏于維護(hù),但是我仍然會(huì)不定期地更新公眾號(hào)“咖哥數(shù)據(jù)科學(xué)講習(xí)所”中的內(nèi)容,大家可以通過該公眾號(hào)或者我的郵箱tohuangjia@gmail.com聯(lián)系我。

我要感謝的人

寫作是一件快樂但并不容易的事。在此我要感謝很多人。首先就是我的另一半,她在辛苦工作之余,還擔(dān)負(fù)了經(jīng)營家庭、教育兒女的重任,本書能夠順利完成,她的功勞很大。

感謝我的老板Janet、Mark、Desmond。感謝他們對我的全力支持和信任,讓我能夠自由地做我想做的事情。在這本書問世的時(shí)候,也許我已經(jīng)離開埃森哲,開啟新征程,但對你們我有著深深的不舍。

感謝我的同事和團(tuán)隊(duì):Dennis、Ananth、Wai Hong、Zulaiha、Josef、Karsen、Sally、Lawrence、Swathi、Swasthi、Mart、Pei Juan、Swee Hai。和優(yōu)秀的人一起工作,工作從來不是負(fù)擔(dān)。

非常感謝Mustafa Bari Karaman、Morten Hegewald在博客中對數(shù)據(jù)化運(yùn)營進(jìn)行的有見地的分享,他們?yōu)槲覍戇@本書提供了很多靈感和啟發(fā),感謝他們同意我引用他們作品中的部分?jǐn)?shù)據(jù)集和代碼。感謝海燕幫助我審閱了本書A/B測試部分的統(tǒng)計(jì)學(xué)知識(shí)。感謝其他數(shù)據(jù)分析行業(yè)的前輩允許我使用他們在網(wǎng)絡(luò)、博客上發(fā)布的部分內(nèi)容。

非常感謝明軒、忠仁哥家的好菜,利娟、僑發(fā)哥家的好酒,菁姐、楊哥的鼓勵(lì),朱大哥多年的陪伴,于教師的長期指導(dǎo),言詞伉儷、董力伉儷、阿良伉儷在中新成都會(huì)中的玩笑逗樂,感謝牛哥、賀老、老陳、小琚等老同學(xué)在本書創(chuàng)作期間經(jīng)常用火鍋款待我。

感謝顏景燕編輯,這本書能最終成形,顏編輯功不可沒。同時(shí)也感謝一路走來給予我大力支持的人民郵電出版社的所有編輯。

感謝我的爸爸、媽媽一如既往地支持我、鼓勵(lì)我。

開啟新的旅程

最后,我也要感謝購買這本書的讀者。

相逢即有緣,而我們之間的緣分從這本書開始。

如果你希望在數(shù)據(jù)之路上開始自己的探索,如果你想更深入地了解什么是“數(shù)據(jù)演繹法”,想知道新手小雪是怎樣在一次次有趣的數(shù)據(jù)運(yùn)營實(shí)戰(zhàn)中成長起來的,那么就和咖哥一起,在一個(gè)個(gè)有趣的案例分析和編碼實(shí)戰(zhàn)中,開啟一段好玩的數(shù)據(jù)分析之旅吧!

黃佳

2022年6月

主站蜘蛛池模板: 沙洋县| 西和县| 清流县| 兴业县| 米易县| 梁山县| 凌海市| 合川市| 邵阳县| 富民县| 华池县| 雅安市| 新郑市| 阿城市| 芷江| 城口县| 荣成市| 棋牌| 九龙县| 桐庐县| 富民县| 兴城市| 仲巴县| 大英县| 永宁县| 长乐市| 高邮市| 江川县| 松阳县| 九龙坡区| 桦南县| 婺源县| 鹤峰县| 海口市| 邓州市| 格尔木市| 阳曲县| 井陉县| 岳池县| 太仆寺旗| 阜新|