官术网_书友最值得收藏!

前言

目前,數據科學的技術門檻逐漸降低。面對海量信息撲面而來的我們,該如何從這種趨勢中收獲更多呢?

不友好的技術世界

我們經常聽別人談論,數據科學的門檻在逐漸降低。數據科學、機器學習、自然語言處理、神經網絡、人工智能……一系列的名詞讓我們眼花繚亂,讓我們對這個時代充滿期待。每個人都躍躍欲試,希望自己也能用新技術讓工作卓有成效。但是,如果我們從事的不是與信息技術(Information Technology,IT)相關的工作,學習的不是計算機專業,那可能會逐漸發現,技術世界似乎“不那么友好”。

如我們只想對文本提取主題,作者卻寫了這么長的公式:

又如我們想做一個時間序列的預測,結果一個處理單元就有圖1所示的結構。

除了不斷“從入門到放棄”,我們還能做什么?

別急,這不是真相。真相是,只要我們知道如何找到正確的工具包,就可以用短短幾行代碼完成以前手工需要做幾天的工作。

編程,對于有需求的人來說,如今已經變成了和駕駛一樣的基礎技能。開輛自動擋的汽車,不難吧?我們可以安全行駛幾十萬千米,成為名副其實的“老司機”,而不必理解發動機(或者電動機)的構造。汽車需要維護和保養,這是自然的,但是這些工作我們都可以交給專業人士。我們需要了解的無非是轉向、制動、油門、信號燈……

圖1

數據科學技術門檻的降低就應該體現在處理數據問題的時候,我們應當像駕駛汽車一樣自然地處理這些問題,而不應當像學習發動機構造一樣“挑戰自我”。

本書的受眾與架構

在機械師的眼中,發動機的構造簡單易懂。所以他們中的大部分人寫發動機構造教程的時候,很少考慮那些對物理一無所知的讀者的感受。

同樣,那些制造數據科學與人工智能工具的人也很聰明,相關原理于他們而言就是“理所當然”,所以大部分數據科學類教程,對于讀者閱讀數學公式和分析模型構造提出了較高要求。而這對于大部分讀者,尤其是非理工科的讀者來說是一大障礙。

非理工科讀者們充滿期待,試圖通過掌握數據科學工具來完成科研與工作任務,而拿到的教程依然在完完整整地羅列公式,甚至是推導過程。這就像我們想學開車,教練卻要我們先學習發動機構造。

讀者此時可能會產生自卑感——因為看不懂這些公式。其實,這又有什么?

想必你我都認同,普通的非專職司機(可能是成功的生物學家、成功的作家等),即便不懂發動機的構造和工作原理,依然可以很好地開車,順利、安全地到達目的地。

因此,我們任何人都不應該在這“數字技術洪流”中受到阻礙。特別是,我們不應該把自己推到“數字鴻溝”的另一端。

我們需要的是找到適合自己閱讀的教程。這種教程的特點是什么?在筆者看來,大致包括以下3點。

以問題為導向。用例子講明白如何用合適的工具,簡單、高效地解決問題。

解決問題的方法完全可以復制。教程必須給出全部的代碼和步驟流程。讀者參考后就能上手,獲得結果。

盡量不使用數學公式和一大堆晦澀難懂的術語;即便使用術語,也需要解釋清楚。

秉持與上述特點一致的原則,從2017年6月開始,筆者在自己的公眾號“玉樹芝蘭”和簡書、知乎、科學網專欄等寫了一系列的數據科學教程。很榮幸,這些教程受到了很多讀者的歡迎。

現在,筆者將這一系列教程整理成書,分享給讀者。本書每一小節都保持了“原汁原味”的問題導向風格的標題。這樣讀者可以在瀏覽目錄后,迅速定位到自己需要的部分,實踐和復用代碼,解決遇到的實際問題。

為了讓讀者更容易理解并實踐書中的內容,本書的程序輸出結果以截圖形式直接給出,部分較復雜內容更保留了輸入形式截圖。

本書案例大部分有配套代碼和案例數據,下載鏈接:https://github.com/zhaihulu/DataScience/。讀者可以盡情下載、修改和使用。本書中的每個案例都經歷了成百上千個讀者的實際運行和檢驗。他們的提問和反饋也曾幫助筆者查找出許多問題,或是查找到教程講解中不容易理解的部分,從而促使筆者不斷迭代改進表述方式和案例,這些都在本書有所體現。

數據科學歡迎你

如果你是理工科的學生,甚至是計算機專業的學生,也沒有關系。或許本書有些內容對于你來說過于簡單,甚至有些啰唆,但你也可以換個角度來看它。

筆者的專欄和公眾號讀者里面,不乏知名大學信息科學、計算機科學、統計學和數學專業的老師與研究生。筆者曾經疑惑,他們怎么也來讀筆者的教程?后來筆者明白了,有的老師是希望這些教程能幫助自己的學生快速上手,有的老師是希望切磋教學用例和教學方法。而有的老師則是從專業的角度幫筆者把關。

他們給了筆者很多的鼓勵,也提供了諸多有益的反饋和點撥。在此,筆者向他們表示衷心的感謝!歡迎讀者幫筆者挑挑“硬傷”,提高這本書的質量。我們可以共同協作,以免誤人子弟的情況出現。

所以你看,你并不孤獨。開放的數據科學教育需要大家都貢獻自己的一份力量。Welcome on board(歡迎加入我們)!

王樹義 翟羽佳

2021年9月

主站蜘蛛池模板: 阿尔山市| 桐城市| 乡宁县| 东乡族自治县| 河池市| 垣曲县| 句容市| 绍兴县| 洪雅县| 改则县| 贵港市| 叙永县| 双桥区| 常熟市| 满洲里市| 大田县| 张家界市| 龙川县| 凤阳县| 浦城县| 澎湖县| 正阳县| 新巴尔虎左旗| 泸溪县| 铜陵市| 商洛市| 宝应县| 禄丰县| 凤阳县| 濉溪县| 古浪县| 昌乐县| 宣化县| 沾化县| 习水县| 锡林浩特市| 建昌县| 古蔺县| 眉山市| 高陵县| 定结县|