- 數亦有道:Python數據科學指南
- 王樹義 翟羽佳
- 1886字
- 2021-09-28 15:24:00
前言
目前,數據科學的技術門檻逐漸降低。面對海量信息撲面而來的我們,該如何從這種趨勢中收獲更多呢?
不友好的技術世界
我們經常聽別人談論,數據科學的門檻在逐漸降低。數據科學、機器學習、自然語言處理、神經網絡、人工智能……一系列的名詞讓我們眼花繚亂,讓我們對這個時代充滿期待。每個人都躍躍欲試,希望自己也能用新技術讓工作卓有成效。但是,如果我們從事的不是與信息技術(Information Technology,IT)相關的工作,學習的不是計算機專業,那可能會逐漸發現,技術世界似乎“不那么友好”。
如我們只想對文本提取主題,作者卻寫了這么長的公式:

又如我們想做一個時間序列的預測,結果一個處理單元就有圖1所示的結構。
除了不斷“從入門到放棄”,我們還能做什么?
別急,這不是真相。真相是,只要我們知道如何找到正確的工具包,就可以用短短幾行代碼完成以前手工需要做幾天的工作。
編程,對于有需求的人來說,如今已經變成了和駕駛一樣的基礎技能。開輛自動擋的汽車,不難吧?我們可以安全行駛幾十萬千米,成為名副其實的“老司機”,而不必理解發動機(或者電動機)的構造。汽車需要維護和保養,這是自然的,但是這些工作我們都可以交給專業人士。我們需要了解的無非是轉向、制動、油門、信號燈……

圖1
數據科學技術門檻的降低就應該體現在處理數據問題的時候,我們應當像駕駛汽車一樣自然地處理這些問題,而不應當像學習發動機構造一樣“挑戰自我”。
本書的受眾與架構
在機械師的眼中,發動機的構造簡單易懂。所以他們中的大部分人寫發動機構造教程的時候,很少考慮那些對物理一無所知的讀者的感受。
同樣,那些制造數據科學與人工智能工具的人也很聰明,相關原理于他們而言就是“理所當然”,所以大部分數據科學類教程,對于讀者閱讀數學公式和分析模型構造提出了較高要求。而這對于大部分讀者,尤其是非理工科的讀者來說是一大障礙。
非理工科讀者們充滿期待,試圖通過掌握數據科學工具來完成科研與工作任務,而拿到的教程依然在完完整整地羅列公式,甚至是推導過程。這就像我們想學開車,教練卻要我們先學習發動機構造。
讀者此時可能會產生自卑感——因為看不懂這些公式。其實,這又有什么?
想必你我都認同,普通的非專職司機(可能是成功的生物學家、成功的作家等),即便不懂發動機的構造和工作原理,依然可以很好地開車,順利、安全地到達目的地。
因此,我們任何人都不應該在這“數字技術洪流”中受到阻礙。特別是,我們不應該把自己推到“數字鴻溝”的另一端。
我們需要的是找到適合自己閱讀的教程。這種教程的特點是什么?在筆者看來,大致包括以下3點。
以問題為導向。用例子講明白如何用合適的工具,簡單、高效地解決問題。
解決問題的方法完全可以復制。教程必須給出全部的代碼和步驟流程。讀者參考后就能上手,獲得結果。
盡量不使用數學公式和一大堆晦澀難懂的術語;即便使用術語,也需要解釋清楚。
秉持與上述特點一致的原則,從2017年6月開始,筆者在自己的公眾號“玉樹芝蘭”和簡書、知乎、科學網專欄等寫了一系列的數據科學教程。很榮幸,這些教程受到了很多讀者的歡迎。
現在,筆者將這一系列教程整理成書,分享給讀者。本書每一小節都保持了“原汁原味”的問題導向風格的標題。這樣讀者可以在瀏覽目錄后,迅速定位到自己需要的部分,實踐和復用代碼,解決遇到的實際問題。
為了讓讀者更容易理解并實踐書中的內容,本書的程序輸出結果以截圖形式直接給出,部分較復雜內容更保留了輸入形式截圖。
本書案例大部分有配套代碼和案例數據,下載鏈接:https://github.com/zhaihulu/DataScience/。讀者可以盡情下載、修改和使用。本書中的每個案例都經歷了成百上千個讀者的實際運行和檢驗。他們的提問和反饋也曾幫助筆者查找出許多問題,或是查找到教程講解中不容易理解的部分,從而促使筆者不斷迭代改進表述方式和案例,這些都在本書有所體現。
數據科學歡迎你
如果你是理工科的學生,甚至是計算機專業的學生,也沒有關系。或許本書有些內容對于你來說過于簡單,甚至有些啰唆,但你也可以換個角度來看它。
筆者的專欄和公眾號讀者里面,不乏知名大學信息科學、計算機科學、統計學和數學專業的老師與研究生。筆者曾經疑惑,他們怎么也來讀筆者的教程?后來筆者明白了,有的老師是希望這些教程能幫助自己的學生快速上手,有的老師是希望切磋教學用例和教學方法。而有的老師則是從專業的角度幫筆者把關。
他們給了筆者很多的鼓勵,也提供了諸多有益的反饋和點撥。在此,筆者向他們表示衷心的感謝!歡迎讀者幫筆者挑挑“硬傷”,提高這本書的質量。我們可以共同協作,以免誤人子弟的情況出現。
所以你看,你并不孤獨。開放的數據科學教育需要大家都貢獻自己的一份力量。Welcome on board(歡迎加入我們)!
王樹義 翟羽佳
2021年9月
- 在你身邊為你設計Ⅲ:騰訊服務設計思維與實戰
- Access 2007數據庫應用上機指導與練習
- 醫療大數據挖掘與可視化
- 數據挖掘原理與SPSS Clementine應用寶典
- Apache Kylin權威指南
- MySQL DBA修煉之道
- Unreal Engine Virtual Reality Quick Start Guide
- AndEngine for Android Game Development Cookbook
- Access 2010數據庫應用技術教程(第二版)
- 高效使用Redis:一書學透數據存儲與高可用集群
- 一本書講透數據治理:戰略、方法、工具與實踐
- 新基建:大數據中心時代
- 數據結構與算法圖解
- Hands-On Design Patterns with Swift
- PyTorch深度學習實戰