- 從機器學習到無人駕駛
- 宋哲賢
- 1852字
- 2020-11-23 15:03:25
3.1 什么是線性回歸
本節主要介紹線性回歸的概念、歷史與模型。
3.1.1 線性回歸的概念
線性回歸從詞法構成來說包括“線性”和“回歸”兩部分內容。“線性”是指線性關系,對于最簡化的場景而言,兩個變量之間存在一次方函數關系,就稱它們之間存在線性關系。通俗一點講,如果把這兩個變量分別作為點的橫坐標與縱坐標,其圖像是平面上的一條直線,則這兩個變量之間的關系就是線性關系。即如果可以用一個二元一次方程來表達兩個變量之間的關系,這兩個變量之間的關系就稱為線性關系,因而,二元一次方程也稱為線性方程。推而廣之,含有n個變量的一次方程也稱為n元線性方程,不過這已經與直線沒有什么關系了。因此,我們需要使用向量來表述這種一般性的線性關系。給定向量組A:α1,α2,…,αn,以及向量b,若存在一組數k1,k2,…,kn,使得b= k1α1+ k2α2+…+ knαn,則稱向量b可由向量組A線性表示,也稱向量b是向量組A的一個線性組合,k1,k2,…,kn稱為這個線性組合的系數。
3.1.2 線性回歸的歷史
線性回歸中的“回歸”實際是一個頗具爭議的名稱,這個名稱的提出者是高爾頓(Frramcia Galton,1882-1911年)。高爾頓早年在劍橋大學學習醫學,但醫生的職業對他并無吸引力,后來他接受了一筆遺產,這使他可以放棄醫生的生涯,并于1850-1852年期間去非洲考察,他所取得的成就使其在1853年獲得了英國皇家地理學會的金質獎章。此后,他研究過多種學科(氣象學、心理學、社會學、教育學和指紋學等),在1865年后他的主要興趣轉向遺傳學,這也許是受他表兄達爾文的影響。高爾頓開始思考父代和子代相似,如身高、性格及其他種種特質的相似性問題。于是他選擇了父母平均身高X與其子身高Y的關系作為研究對象。他觀察了1074對父母及每對父母的一個兒子,將結果描成散點圖,發現趨勢近乎一條直線。總的來說,父母平均身高X增加時,其子的身高Y也傾向于增加,這是意料中的結果。但有意思的是,高爾頓發現這1074對父母平均身高的平均值為68英寸(英國計量單位,1英寸=2.54cm)時,1074個兒子的平均身高為69英寸,比父母平均身高高1英寸。于是他推想:當父母平均身高為64英寸時,1074個兒子的平均身高應為64+1=65英寸;當父母的身高為72英寸時,他們兒子的平均身高應為72+1=73英寸,但觀察結果與此不符。高爾頓發現前一種情況是兒子的平均身高為67英寸,高于父母平均值達3英寸,后者兒子的平均身高為71英寸,比父母的平均身高低1英寸。高爾頓研究后得出的解釋是自然界有一種約束力,使人類身高在一定時期是相對穩定的。現代遺傳學研究表明:基因遺傳是決定身高的主要因素,表現為多基因遺傳。若父母身高比較高(或矮),其子女比他們更高(矮),則人類身材將向高、矮兩個極端分化。自然界不這樣做,它讓身高有一種回歸到中心的作用。例如,父母平均身高72英寸,這超過了平均值68英寸,表明這些父母屬于高的一類,其兒子也傾向于高的一類(其平均身高71英寸,大于子代的平均身高69英寸),但不像父母離子代那么遠((71-69)<(72-68))。反之,父母平均身高64英寸,屬于矮的一類,其兒子也傾向于矮的一類(其平均身高為67英寸,小于子代的平均身高69英寸),但不像父母離中心那么遠((69 -67)<(68-64))。因此,身高有回歸于中心的趨勢,由于這個性質,高爾頓創立了“回歸”并應用到問題的討論中,這就是“回歸”名稱的由來。回歸分析研究的是多個變量之間的關系。它是一種預測性的建模技術,研究的是因變量(目標)和自變量(預測器)之間的關系。這種技術通常用于預測分析、時間序列模型以及發現變量之間的因果關系。
3.1.3 線性回歸模型
線性回歸比較嚴格的定義是數據集D,樣本有n個屬性進行描述,在數據集內輸入數據(X)和標簽(Y),對應的關系可以表示為(X1,X2,X3,…,Xn)~Y,我們試圖找到或求得一種關系,這種關系是線性的,能夠使輸入X得到Y。換一種表述方法,就是我們會找到一組輸入變量的系數,能夠完成輸入變量的線性方程。因此,線性(多元)回歸可以表述為如下表達式:

在上面的算術表達式中,為了完成最終加和公式,我們進行了合理假設,輸入變量的X0 = 1。在這里面臨一個問題,X有多個要素,而數據集中理所當然含有多條數據,為了能夠準確地把這樣的二維數據結構描述清楚,我們需要引入向量運算。向量運算如下:

線性回歸中的線性模型雖然比較簡潔,但是是機器學習過程中一個非常好的起點,特別是線性模型非常直觀地體現了模型本身的可解釋性。例如,我們要來判斷一個主播是不是女裝大佬,可從聲音、膚質和體型方面進行判斷,如果最后得到的線性模型是,說明判斷依據中的聲音是決定性的。當然這種情況下,如果某個男士會假嗓,也會很容易騙過群眾的耳朵。
- 32位嵌入式系統與SoC設計導論
- Splunk 7 Essentials(Third Edition)
- Hands-On Linux for Architects
- JSF2和RichFaces4使用指南
- CompTIA Linux+ Certification Guide
- Lightning Fast Animation in Element 3D
- 基于單片機的嵌入式工程開發詳解
- 單片機技術一學就會
- 內模控制及其應用
- Visual Studio 2010 (C#) Windows數據庫項目開發
- 生物3D打印:從醫療輔具制造到細胞打印
- 3ds Max造型表現藝術
- 深度學習原理與 TensorFlow實踐
- 人工智能:智能人機交互
- Learning Cassandra for Administrators