官术网_书友最值得收藏!

前言

2008年7月25日,美國卡內基·梅隆大學計算機系教授蘭迪·波許(Randy Pausch),因胰腺癌晚期及并發癥去世,享年47歲。波許教授生前曾是人機界面領域的知名專家,國際計算機協會會士(ACM Fellow)。但更令其廣為人知的是他于2007年9月(即去世前10個月)所做的一場題為《最后一課》(The Last Lecture)的著名演說。這篇演說反響極大,數以百萬計的觀眾在線收看了演講視頻,美國廣播電視網將他選為“2007年度人物”之一,《時代》雜志將他列入了“世界上影響最大的100人”,同名書籍長期位列“紐約時報暢銷書(建議類)”榜首。

在這篇演說中,波許教授回顧了自己人生中的若干重要片段,而“墻”這個意象也多次出現。例如在開篇部分,波許教授談到自己童年的夢想是體驗失重狀態,但苦于無法實現。直到當上了教授之后,機會似乎終于出現了。美國宇航局(NASA)組織了一次大學生競賽,優勝團隊的獎勵便是可以被送到高空,體驗25秒的失重狀態。波許教授指導的隊伍,獲得了比賽的第一名。但NASA卻告訴他,只有學生才能飛上天空,指導老師不行。這樣一個奇怪的規則就是擋在波許教授面前,令其無法實現兒時夢想的一堵墻。當然,就像人生中面對過的無數面墻一樣,波許教授還是鍥而不舍地找到了逾越它的辦法。

在最后,波許教授語重心長地總結道:“你總會遇到挫折。但是記住,它們的出現并不是沒有原因的。磚墻并不是為了擋住我們。它在那里,只是為了測試,我們的決心到底有多迫切。它在那里擋住了那些沒有強烈決心的人。它不讓那些人通過。記住,磚墻的存在是為了顯示我們自己付出的決心。它使得我們,同那些并不真的想實現夢想的人得以區分。”

這不禁讓我想到了很多希望涉足人工智能與數據科學的初學者在面對數學時的感受。自從深度學習火爆起來之后,深度學習算法工程師、人工智能研究員,以及數據科學家等新興職位迅速成為大家爭相討論的薪資高地。特別是在谷歌公司的人工智能程序AlphaGo,于曾經一度被認為是人類智慧最后堡壘的圍棋領域,大敗世界冠軍李世石后,各大IT名企紛紛成立所謂的人工智能研究院、深度學習實驗室。像Geoffrey Hinton、Yann LeCun、Ian Goodfellow、李飛飛和吳恩達等國際知名學者也紛紛被谷歌、Face book這樣的IT巨頭高薪延攬。

很多曾經的傳統IT從業人員也不免心動,個個摩拳擦掌、躍躍欲試,希望趁早轉行趕上AI這趟急速狂奔的列車。畢竟,人往高處走,水往低處流。然而,盡管人工智能和傳統IT都是從計算機科學領域發展出來的,但二者之間卻有著一堵明顯的高墻,這堵高墻便是數學。傳統的IT領域更加重視編程,而對數學的要求卻相對較弱。但在人工智能學習的各個階段,數學都是主要的攻堅對象,任何胸懷大志的人工智能學習者都不要幻想繞過數學。

有的人會認為人工智能工具化的趨勢已經越發明顯。借助現成的各種深度學習框架、函數庫、軟件包(例如TensorFlow,SciKit-learn等),即使不太了解算法背后的具體原理,更無須深究其中的數學細節,一個程序員稍加培訓,也能很快訓練出一個用于圖像識別的深度神經網絡。那是不是說明,借助工具化的方法就可以繞過數學這堵高墻了呢?

在一篇題為《放棄幻想,搞AI必須過數學關》的網文中,作者提出了這樣的觀點:“數學不過關的人在AI這個圈子里是無法參與交流的,或者說得直白一點,是被人瞧不起的,根本無法被接納成為AI圈子里的人。其次,數學不過關而只能調參數的人,并不能勝任實際工作。最后,即便是調參這件事情本身,懂不懂數學也是有很大差別的。”

作為補充,我想回到波許教授有關墻的理論框架。注意,在他眼里,墻的意義總體上是偏向積極的。他認為:磚墻的存在是為了彰顯我們的決心,更將我們與那些并不真的想實現夢想之人區分開來。所以,如果說人工智能相關領域的職位薪資普遍更高,那也無疑是因為墻的存在,導致物以稀為貴的結果。

打個比方,在中華人民共和國建立初期,我國還不能自行生產抗生素。那時,像青霉素這種進口藥都奇貨可居,貴得離譜。后來,中國可以大規模自行生產青霉素之后,這種藥自然就變得非常廉價了。同理,最開始能夠從事人工智能相關工作的人少,所以薪資才高。畢竟在中國最開始的時候就能夠熟練使用TensorFlow的程序員肯定不多,那么少數幾個還能把這種框架用起來的人薪資高也說得過去。但如果大部分程序員,甚至相關專業本科畢業生都能熟練使用有關框架進行深度學習應用開發,可想而知,同樣職位的薪資最后就必然會被統一拉低。這時就更能凸顯擁有非對稱優勢者的價值。就拿調參數這種基本工作來說,“如果你數學不過關,對參數的意義和相關關系理解不深,方向感不強,只能半隨機地刷參數,那么工作的單調性和煩瑣性會大大上升,很難堅持到做出好的模型”。何況現實中的很多具體問題都要具體分析,本來就沒有放之四海而皆準的模型或算法。于是真的到了需要對算法進行改進,甚至針對具體應用開發新算法的時候,那些不懂原理的調包俠就只能望洋興嘆了。

墻的存在使得真心實現夢想的踐行者與其他只會空談的人得以區別。對于前者,遇到困難和付出努力是難免的。正如荀子所言,無冥冥之志者,無昭昭之明;無惛惛之事者,無赫赫之功。真正的人生難道不就是應該在翻過一面面墻的同時,使得自己更加強大的過程嗎?或許也只有這樣,當你回首往事時,才不會因虛度年華而悔恨,也不會因碌碌無為而羞恥。因為,在這樣的過程中,不是你成全了夢想,而是追夢本身成全了你的人生。

數學是機器學習和數據科學的基礎,任何期望涉足相關領域并切實領悟具體技術與方法的人都無法繞過數學這一關。本書系統地整理并介紹了機器學習中所涉及的必備數學基礎,這些都是筆者從浩如煙海的數學知識中精心選取的,在學習和研究機器學習技術時所必需的內容。具體包括概率論與數理統計、微積分(主要是與最優化內容相關的部分)、凸優化及拉格朗日乘數法、數值計算、泛函分析基礎(例如核方法賴以建立的希爾伯特空間理論)以及蒙特卡洛采樣(拒絕采樣、自適應拒絕采樣、重要性采樣、吉布斯采樣和馬爾可夫鏈蒙特卡洛)等內容。此外,為了幫助讀者強化所學,本書還從上述數學基礎出發,介紹了回歸(線性回歸、多項式回歸、非線性回歸、嶺回歸,以及LASSO等)、分類(感知機、邏輯回歸、樸素貝葉斯、決策樹、支持向量機、人工神經網絡等)、聚類(k均值、EM算法、密度聚類等)、降維與流形學習(SVD、PCA和MDS等)、集成學習(Bootstrap、Bagging、Boosting、AdaBoost與隨機森林)以及概率圖模型(貝葉斯網絡、隱馬爾可夫模型)等機器學習中的重要話題。本書可作為機器學習及相關課程的教學參考書,適合高等院校人工智能、機器學習或數據挖掘等相關專業的師生研習之用,也可供從事計算機應用(特別是數據科學相關專業)的研發人員參考。

自知論道須思量,幾度無眠一文章。由于時間和能力有限,書中紕漏在所難免,真誠地希望各位讀者和專家不吝批評、斧正。如果讀者在閱讀本書過程中遇到問題,或者有關于本書的各種意見和建議,可以通過在CSDN博客(博客名:白馬負金羈)上留言的方式與我交流。本博客主要關注機器學習、數據挖掘、深度學習及數據科學等話題,提供的很多技術文章都可以作為本書的補充資料,供廣大讀者自學時參考。

編者

2020年1月

主站蜘蛛池模板: 沂水县| 齐齐哈尔市| 周宁县| 璧山县| 崇仁县| 叶城县| 四子王旗| 拉孜县| 临泉县| 乌兰县| 建德市| 偃师市| 西盟| 安义县| 佳木斯市| 兴宁市| 哈巴河县| 克什克腾旗| 含山县| 盘山县| 太白县| 宾川县| 鄯善县| 吉隆县| 遵义市| 东兰县| 衡阳市| 天等县| 文山县| 盐亭县| 鄢陵县| 萝北县| 宣武区| 旬阳县| 宝山区| 满城县| 乡城县| 彭泽县| 贡嘎县| 济阳县| 珠海市|