- 商用機器學習:數據科學實踐
- (加)約翰·赫爾
- 1364字
- 2020-10-16 17:15:24
第1章 引言
機器學習在商界已經成為越來越重要的分析工具,事實上從業者在方方面面的工作中都已經感受到了其影響。機器學習的核心在于運用大數據來研究各個變量之間的關聯性,在千絲萬縷的交互變量中尋找規律,并進行分析和預測。迄今為止,機器學習運用于分析和預測消費行為、股票市場價格等,已經屢見不鮮。隨著計算機速度的提高以及大數據存儲成本的降低,我們運用機器學習的廣度會有所拓寬,深度也會有所加深,而這些應用在20年前或30年前根本都是無法想象的。
機器學習是人工智能的一個分支。人工智能的核心在于開發機器對于人類智力的探索和模仿,而機器學習通過對大量數據的處理有效提高了人工智能的效率。毋庸置疑,機器學習是人工智能發展史上最值得期待,并且也是最具商業價值的環節。
為了解釋機器學習與其他人工智能方法的區別,我們舉一個簡單的例子,假設我們想編一套計算機程序來模擬“井字棋”程序(tic tac toe,又名noughts and crosses)。一種方法是向計算機提供一個查找表,列出可能出現的位置,以及對應每個位置上的人類專業玩家所能做的移動;另一種方法是向計算機呈現大量的游戲(例如,通過安排計算機與自身進行數千次的對抗),并讓計算機學會最好的動作,該方法就是機器學習的應用。以上兩種方法雖然都可以成功用于類似井字棋這樣的簡單游戲,但機器學習方法可以用于更復雜的游戲,如國際象棋和圍棋,而第一種方法顯然是不可能的。
語言翻譯可以很好地說明機器學習的能力。我們如何對計算機進行編程來實現兩種語言之間的翻譯呢,比如從英語到法語?一種做法是給計算機輸入一本英法詞典。不幸的是,逐字翻譯的效果會很差。因此我們很有必要嘗試其他編程規則,即對英語語法和法語語法也進行編程。但這并不容易實現,即使做到了,結果也遠非完美。谷歌開創了使用機器學習的一套更好的方法,這就是在2016年11月宣布的、被稱為“谷歌自然語言翻譯”(GNMT)的算法。[1]計算機首先被提供了數百萬頁的材料,由專業翻譯人員從英語翻譯成法語,然后讓計算機從這些材料中學習,并建立自己的翻譯規則。與以前的方法相比,通過這種方法得出的翻譯結果確實有了很大改進。
數據科學包含機器學習,但數據科學有時被認為是一個更為廣泛的領域,比如系統開發和運用,這些運用是為了幫助決策者進行業務決策。[2]在本書中,“機器學習”和“數據科學”這兩個術語是等同的。這是因為,如果機器學習專家不參與助推其雇主想要實現的管理目標,就很難看出這些專家在商業領域中是如何有效地工作的。
機器學習或數據科學是統計學中的一個全新領域。傳統統計學討論的基本內容包括概率分布、置信區間、顯著性檢驗、線性回歸等。掌握這些基礎理論知識非常重要,但現在我們可以通過大數據來研究一些過去無法實現的功能,例如:
·通過非線性模型來預測和提高決策的正確性;
·可以在數據中搜索,以提高公司對其客戶和經營環境的了解;
·開發一套決策規則來應對當下復雜多變的環境。
如上所述,機器學習所能實現的很多功能都離不開計算機運行速度的提高和數據存儲成本的降低。
當統計學家或計量經濟學家涉獵機器學習時,他們對一些術語可能會感到很奇怪。例如,統計學家和計量經濟學家喜歡談論自變量和因變量,而決策者喜歡談論特征和目標。隨著本書的展開,我們將解釋這些數據科學術語,并在本書最后提供術語表。
[1] See https://arxiv.org/pdf/1609.08144.pdf.
[2] See, for example, H. Bowne-Anderson, “What data scientists really do ,according to 35 data scientists,” Harvard Business Review, August 2018: https://hbr.org/2018/08/ what-data-scientists-really-do-according-to-35-data-scientists.