官术网_书友最值得收藏!

§2.2 一元線性回歸模型

一、引例

回歸分析就是根據(jù)解釋變量的已知或給定值去估計或預(yù)測被解釋變量的總體均值。為了說明這一過程,我們以一個人為假想例來闡述這個問題。

假定我們要研究一個局部區(qū)域的居民消費問題,該區(qū)域共有80戶家庭,將這80戶家庭視為一個統(tǒng)計總體。我們研究每月家庭消費支出Y與每月可支配收入X的關(guān)系。就是說,已知家庭每月可支配收入,要預(yù)測家庭每月消費支出的總體平均水平。為此,將80戶家庭分為10組。表2.1給出了人為數(shù)據(jù)。

表2.1 居民收入、消費數(shù)據(jù)

從表2.1中可以看出,對于每月1000元收入的7戶家庭,每月消費支出為700元到940元不等。同樣,當(dāng)X=3000元時,9戶家庭的每月消費支出在2180元到2660元之間。表2.1給出了以X的給定值為條件的Y的條件分布。

對于Y的每一條件分布,我們能計算出它的條件期望,記為E(Y|X=Xi),即在X取特定值Xi時Y的期望值。例如,X=1000時,Y的期望值為

將表2.1中的數(shù)據(jù)在直角坐標(biāo)系中描出,則得到圖2.2的散點圖。該圖表明了對應(yīng)于各X值的Y的條件分布。雖然個別家庭的消費支出都有變異,但圖2.2清楚地表明隨著收入的增加,消費支出平均地說也在增加。就是說,散點圖啟示我們,Y的條件均值隨X增加而增加。如果我們觀察圖2.2中那些代表Y的各個條件均值的粗圓點,則表明這些條件平均值落在一條有正斜率的直線上。我們稱這條直線叫作總體回歸線,它表示Y對X的回歸。

圖2.2 收入、消費散點圖

總體回歸線就是當(dāng)解釋變量取給定值時被解釋變量的條件均值或期望值的軌跡。圖2.2表明,對每一Xi都有Y值的一個總體和一個相應(yīng)的均值。而回歸線是穿過這些條件均值的線。

二、總體回歸函數(shù)

從圖2.2我們可以看出,條件均值E(Y|Xi)是Xi的函數(shù),即

其中f(Xi)表示解釋變量Xi的某個函數(shù)。稱式(2.1)為總體回歸函數(shù),簡稱總體回歸。它表明在給定Xi下Y的分布的總體均值與Xi有函數(shù)關(guān)系,就是說它給出了Y的均值是怎樣隨X值的變化而變化的。在我們的引例中,E(Y|Xi)是Xi的一個線性函數(shù)。

函數(shù)f(Xi)采取什么函數(shù)形式,是一個需要解決的重要問題。在實際經(jīng)濟系統(tǒng)中,我們不會得到總體的全部數(shù)據(jù),因而就無法根據(jù)已知數(shù)據(jù)確定總體回歸函數(shù)的函數(shù)形式。同時,對總體回歸函數(shù)的形式只能根據(jù)經(jīng)濟理論與經(jīng)驗去推斷。例如,我們可以假定消費支出與收入有線性關(guān)系,則總體回歸函數(shù)為

其中β1和β2為未知且固定的系數(shù),β1為截距系數(shù),β2為斜率系數(shù),統(tǒng)稱為回歸系數(shù)。稱式(2.2)為線性總體回歸函數(shù)。

三、線性的含義

1.對變量為線性

對線性的第一種解釋是指Y的條件期望是Xi的線性函數(shù),例如式(2.2)就是線性回歸函數(shù),該回歸線是一條直線。按這種解釋,E(Y|Xi)=β12X2i就不是線性的,因為E(Y|Xi)對Xi的一階導(dǎo)數(shù)不是常數(shù)。

2.對參數(shù)為線性

對線性的第二種解釋是指Y的條件期望E(Y|Xi)是參數(shù)β的一個線性函數(shù),它可以是,也可以不是變量X的線性函數(shù)。例如,E(Y|Xi)=β12X2i是線性回歸函數(shù),但E(Y|Xi)=則不是線性回歸函數(shù),而是非線性回歸函數(shù)。

在本書中,主要考慮的是對參數(shù)為線性的回歸模型,對解釋變量X則可以不是線性的。

四、總體回歸函數(shù)的隨機設(shè)定

從圖2.2可清楚地看到,隨著家庭收入Xi的增加,家庭平均消費支出E(Y|Xi)也在增加,這表明了Xi與Y的平均水平的關(guān)系。我們想知道對于具體家庭而言,消費支出Y與它的收入水平Xi的關(guān)系。從表2.1和圖2.2可以看出,就個別家庭而言,收入水平增加,消費支出不一定會增加。例如從表2.1可以看到,對于每月3000元的收入水平,有一戶家庭的消費支出為2180元,少于每月收入為2500元的兩戶家庭的消費支出(2200元和2260元)。但應(yīng)看到,每月收入為3000元的家庭的平均消費支出大于每月收入2500元的家庭的平均消費支出(2420元大于2020元)。從圖2.2可以看到,這些給定收入水平Xi的個別家庭,他們的消費支出處于在該收入水平的家庭平均消費支出左右,也就是圍繞著它的條件均值。我們把個別的Yi圍繞它的期望值的離差表示如下:

其中離差ui是一個不可觀測的可正可負(fù)的隨機變量,我們把ui稱為隨機干擾項或隨機誤差項。

在式(2.3)中,給定收入X的水平,個別家庭的消費支出,可表示為兩個成分之和:

(1)E(Y|Xi)代表相同收入水平的所有家庭的平均消費支出。這是系統(tǒng)性或確定性成分。

(2)ui代表所有可能影響Y,但又未能包括到回歸模型中的被忽略變量的代理變量。這是隨機性或非系統(tǒng)性成分。

假設(shè)E(Y|Xi)對Xi為線性的,則

式(2.4)表示一個家庭的消費支出線性地依賴于它的收入加隨機干擾項。

例如,給定X=1000,各家庭的消費支出可表達(dá)為:

五、隨機誤差項u的意義

隨機誤差項u是代表所有對Y有影響但未能包括在回歸模型中的那些變量的替代變量。那么,為什么不能構(gòu)造一個含有盡可能多的變量的多元回歸模型?因為受理論和實踐條件的限制而必須省略一些變量,其理由如下:

(1)理論的欠缺:雖然有決定Y行為的理論,但常常是不能完全確定的,理論常常有一定的含糊性。我們可以肯定每月收入X影響每月消費支出Y,但不能確定是否有其他變量影響Y,只好用ui作為模型所忽略的全部變量的替代變量。

(2)數(shù)據(jù)的欠缺:即使能確定某些變量對Y有顯著影響,但由于不能得到這些變量的數(shù)據(jù)信息而不能引入該變量。例如,從經(jīng)濟理論分析,家庭財富量是影響家庭消費的重要因素,應(yīng)該引入該變量作為解釋變量。但是,通常我們得不到有關(guān)家庭財富的數(shù)據(jù)。因此,我們只得把這個很重要的解釋變量舍棄掉。

(3)核心變量與非核心變量:例如,在引例的居民消費模型中,除了收入X1外,家庭的人口數(shù)X2、戶主宗教信仰X3、戶主受教育水平X4也影響家庭消費支出。但很可能X2、X3、X4合起來的影響也是很微弱的,是一種非系統(tǒng)的或隨機的影響。從效果與成本角度來看,引入它們是不合算的。所以,人們把它們的聯(lián)合效用當(dāng)作一個隨機變量來看待。

(4)人類行為的內(nèi)在隨機性:即使我們成功地把所有有關(guān)的變量都引進到模型中來,在個別的Y中仍不免有一些“內(nèi)在”的隨機性,無論我們花了多少力氣都解釋不了的。隨機誤差項ui能很好地反映這種隨機性。

(5)節(jié)省原則:我們想保持一個盡可能簡單的回歸模型。如果我們能用兩個或三個變量就基本上解釋了Y的行為,就沒有必要引進更多的變量。讓ui代表所有其他變量是一種很好的選擇。

六、樣本回歸函數(shù)

在實際回歸分析中,我們無法獲得像引例中那樣的總體數(shù)據(jù),而只能獲得對應(yīng)于某些固定X的Y值的一個樣本。因此我們只能根據(jù)抽樣信息估計總體回歸函數(shù)。

我們從表2.1隨機抽取對應(yīng)于固定X值的Y值的一個樣本如表2.2所示,對應(yīng)于給定的每個Xi值只有一個Yi值。為了對比分析,按同樣的方法再抽取另一個樣本,如表2.3所示。

表2.2 總體的一個隨機樣本

表2.3 總體的另一個隨機樣本

我們可以看出,兩個樣本存在著差異,這是由于抽樣的隨機性而造成的波動。

將表2.2和表2.3的數(shù)據(jù)描點,得到圖2.3。在這個散點圖中畫兩根樣本回歸線以盡好地擬合這些散點。

S1是根據(jù)第一個樣本畫的,S2是根據(jù)第二個樣本畫的。那么,兩條樣本回歸線中哪一條代表“真實”的總體回歸線呢?在未知總體數(shù)據(jù)的情況下,我們不可能知道哪一條代表真實的總體回歸線。圖2.3中的回歸線稱為樣本回歸線。因抽樣波動,它們都是總體回歸線的一個近似。一般地講,由幾個不同的樣本會得到幾個不同的樣本回歸線,通常這些樣本回歸線會彼此不同。

根據(jù)任一樣本,我們可得樣本回歸線,其函數(shù)形式為

圖2.3 兩個不同樣本的回歸線

其中為E(Y|Xi)的估計量,為β1的估計量,為β2的估計量。

正如總體回歸函數(shù),樣本回歸函數(shù)也存在隨機形式:

其中ei為殘差項。概念上,ei類似于ui,并可把它當(dāng)作ui的估計量。將ei引入樣本回歸函數(shù)中,其理由與總體回歸函數(shù)中引入ui是一樣的。

綜上所述,我們往往根據(jù)總體的一個樣本去估計總體參數(shù)。回歸分析中的主要目的就是根據(jù)樣本回歸函數(shù)

來估計總體回歸函數(shù)

由于抽樣的波動,我們根據(jù)樣本回歸函數(shù)估計出來的總體回歸函數(shù)只能是一個近似結(jié)果。因此,怎樣構(gòu)造樣本回歸函數(shù)能使盡可能接近真實的βj就成為回歸分析的核心。

主站蜘蛛池模板: 永修县| 萝北县| 新建县| 南充市| 监利县| 乌拉特中旗| 开封市| 四川省| 安图县| 嘉鱼县| 称多县| 丰原市| 黔南| 西盟| 施秉县| 青田县| 永春县| 旬阳县| 汕尾市| 中西区| 和静县| 万盛区| 祁阳县| 洛扎县| 江源县| 抚顺市| 报价| 元谋县| 明溪县| 博爱县| 寿宁县| 清苑县| 原阳县| 漳平市| 大邑县| 内黄县| 山阳县| 彭州市| 固镇县| 唐山市| 梓潼县|