- 因子投資:方法與實踐
- 石川等
- 3521字
- 2020-09-29 17:15:50
2.6 因子正交化
在因子投資中常會出現“因子正交化”這一概念。舉例來說,在學術界實證資產定價研究中使用兩個變量進行雙重排序(特別是條件雙重排序)就是一種正交化處理;業界在構建因子的時候更是會使用回歸手段構建相互正交的因子。從經濟學含義上說,“正交”意味著兩個因子代表的資產收益的驅動力是不同的,即它們貢獻了資產超額收益中不同的部分。不嚴格地說,一組相互正交的因子往往能更好地解釋資產預期收益率的截面差異。
舉個極端的例子,使用市盈率和市凈率指標分別構造兩個價值因子。通常來說,如果一支股票的市盈率很高(低),那么它的市凈率也會較高(低),所以使用上述指標構造的兩個多頭組合高度相似,兩個空頭組合也高度相似,造成代表因子的價差組合也高度相似。由于這個原因,雖然該模型有兩個因子,但它們僅是解釋資產收益率中價值驅動的那部分。這個例子說明,兩個因子是否相似體現在資產對它們的暴露在截面上相關性的高低。因子正交化的目的就是降低這種截面上的相關性。
上面說了從經濟學角度追求因子正交化的動機,接下來再說一說數學上的影響。用一句話概括就是,當使用Fama–MacBeth截面回歸求解因子收益率時,因子暴露在截面上的高相關會增大因子收益率的標準誤,從而影響對因子收益率的檢驗。為了解釋這一點,考慮一般的線性回歸模型:
y=Xb+ε (2.83)
對于多因子模型來說,模型(2.83)中的y代表某時刻N個資產的超額收益向量;X是一個N×(K+1)矩陣,第一列的元素全部是1,代表截距項,后面K列為因子暴露;b為因子收益率向量;最后ε為隨機擾動。本節的論述使用諸如y、X這些數學符號,而非Re、β等符號,是為了在討論中不失一般性。本節討論的問題是線性回歸中常見的問題,而非僅僅針對多因子線性回歸模型。模型(2.83)的OLS估計量為:

從的表達式來看,它和X′X有關。當X的各列(即多因子模型中的不同因子的因子暴露向量)之間不正交時,X不同列之間的相關性就會影響X′X以及
的計算,而這種影響不是什么好事兒。以下從簡單一元回歸說起。
2.6.1 簡單一元回歸
假設有一元回歸模型y=bx+ε(模型只有一個解釋變量,沒有截距項)。該一元回歸模型的OLS估計為:

上式中,〈x, y〉表示向量x和y的內積,即。式(2.85)這個結果非常簡單,但是它十分重要。比較式(2.85)和式(2.84)的表達式可以發現,如果多元回歸模型中所有的解釋變量兩兩正交,即〈xi, xj〉=0, i≠j,則向量
恰恰等于:

上式成立是因為〈xi, xj〉=0保證了矩陣X′X的所有非對角元素都是0,因而它是一個對角陣。對角陣的逆矩陣就是把該對角陣對角線上的元素都取倒數,所以逆矩陣仍然是對角陣。因此,式(2.84)中X′X的第i個對角元素為1/〈xi, xi〉。另外,X′y的第i個元素是xi和y的內積,即〈xi, y〉。因此,恰好等于〈xi, y〉/〈xi, xi〉。
多元回歸的OLS估計量和一元回歸的OLS估計量
的表達式一模一樣,說明當所有解釋變量相互正交時,不同的因子暴露對彼此的因子收益率沒有影響,這正是因子相互正交的好處。那么,當因子之間不正交時又會怎樣呢?為了回答這個問題,先來看看回歸的幾何意義。
2.6.2 回歸的幾何意義
將式(2.84)中的表達式代入模型(2.83)得到樣本殘差
。計算X和
的內積有:

上式說明,OLS的殘差和解釋變量X正交。來看看這在幾何上意味著什么。先考慮最簡單的一元回歸的情況。如圖2.13所示,一元回歸OLS的幾何含義是將y垂直投影到x之上,使得y和其在x上的投影之間的距離(
的長度)最短。

圖2.13 一元回歸幾何意義
為了加深對回歸的幾何意義的理解,下面再看看二元回歸y=b1x1+b2x2+ε。假設x1和x2之間是正交的。它的幾何意義(圖2.14)是將y垂直投影到由x1和x2生成的平面內,記為。此外,將y分別單獨投影到向量x1和x2上。由于x1和x2相互正交(即垂直),因此向量
恰好等于上述兩個向量之和。因此,當x1和x2正交時,OLS估計
僅由xi和y決定,其他任何解釋變量xj(j≠i)對
均沒有影響。

圖2.14 二元回歸幾何意義(x1和x2正交)
當x1和x2非正交時會怎樣呢?在這種情況下,二元回歸的幾何意義如圖2.15所示。它和圖2.14最大的區別是,y在由x1和x2生成的平面內的投影不等于y分別在x1和x2上的投影之和。在這種情況下,解釋變量之間對各自回歸系數的OLS估計有不同的作用,不再等于〈xi, y〉/〈xi, xi〉。非正交xi之間的相互作用如何影響回歸系數
呢?通過連續正交化來求解多元線性回歸可以回答這個問題。

圖2.15 二元回歸幾何意義(x1和x2非正交)
2.6.3 用正交化過程求解多元回歸
考慮如下線性回歸模型,其中x0=[1, 1, ···, 1]′和x1=[x1, x2, ···, xn]′,假設x0和x1非正交:
y=ax0+bx1+ε (2.88)
模型(2.88)的OLS估計量為:

接下來說明如何通過正交化求解。由于x0和x1非正交,首先需要構造出一組正交向量。令z0=x0=1為其中的一個向量;將x1作為被解釋變量、z0作為解釋變量進行一元OLS回歸(不帶截距)得到的殘差就是和z0互相正交的向量,記為z1。由式(2.85)以及回歸的性質可知:

上式中表示x1, x2, ···, xn的均值。接下來,將z1和y代入式(2.85)恰恰就得到式(2.89)的OLS估計量
:

以上并沒有直接對模型(2.88)進行OLS回歸,而是通過正交化的方式求出。對于多元回歸的情況,上述求解
的方法可以通過以下過程擴展(Hastie et al.2016)。該過程的核心是通過連續的正交化計算把一組非兩兩正交的向量xi轉換成一組兩兩正交的向量zi,并以此方便地求出最后一個被正交化的解釋變量的多元回歸系數。該過程共有三步:
(1)第一步是初始化。在所有解釋變量中(如果線性回歸模型包括截距項,則它也是一個解釋變量)任意挑選一個當作x0進行初始化z0=x0。
(2)第二步是將其他解釋變量按任意順序排序,記為x1, x2, ···, xK(假設一共有K+1個解釋變量)。按上述順序從x1開始依次進行正交化。具體來說,對xk的正交化公式如下:

其中z0, z1, ···, zk?1是已經被處理過后的正交向量。
(3)得到zK之后,計算〈zK, y〉/〈zK, zK〉,它正是多元回歸模型(2.83)中解釋變量xK的回歸系數的OLS估計量:

需要強調的是,這一結論僅對最后一個被正交化后的解釋變量成立。對于其他解釋變量k<K,〈zk, y〉/〈zk, zk〉并不等于多元回歸的OLS估計量。也許有的讀者會有疑惑:這個算法確實不錯,但是費了半天勁算出了一大堆相互正交的向量zk,而求解回歸系數的結論卻僅對最后一個被正交化的解釋變量成立,這不是坑人嗎?答案是否定的。上述過程中的關鍵在于正交化這些解釋變量的順序是任意的,因而可以選任何一個變量進行初始化,也可以選任何一個變量作為最后一個被正交化的解釋變量。無論怎么選,上述過程保證了最后一個被正交化的解釋變量的回歸系數滿足
。只需依次挑選這些解釋變量作為最后一個被正交化的,就可以通過上述步驟求出這些解釋變量的回歸系數的OLS估計。而上述過程所反映出來的本質是,在對多元線性回歸模型(2.83)進行OLS估計時,解釋變量xk的回歸系數的估計量
等于xk在被其他解釋變量x0, x1, ···, xk?1, xk+1, ···, xK正交化之后(從而排除其他xj對xk的影響)仍能夠對解釋y產生的增量貢獻。
上述過程稱作多元回歸的格拉姆—施密特(Gram—Schmidt)正交化過程。式(2.93)表明xK的回歸系數和正交化后的zK的范數大小(zK自己的內積為分母)有關。如果xK和其他解釋變量高度相關,那么xK被其他xj, j≠K解釋之后的殘差zK就會很小。當yi滿足獨立同分布時,可以證明
的方差和zK的范數大小成反比:

當非常不穩定,即樣本數據的細微變化會導致
大幅變化。回到本書關注的問題,當使用Fama–MacBeth截面回歸求解因子收益率時,
就是因子K的收益率。為了因子收益率的估計更穩定,所以要求不同的因子之間盡量滿足正交化。舉例來說,在Barra的中國市場多因子模型中,非線性市值因子和市值因子之間進行了正交化處理。
在本節的最后再介紹一個有意思、也有用的特性。在格拉姆—施密特正交化過程中,任何一個解釋變量均可以被選為最后一個,然后根據連續正交化方便地求出它的回歸系數。這意味著如果有20個解釋變量,需要進行20次上述操作。是否有什么辦法僅通過進行一次連續正交化就求出所有的回歸系數(k=0, 1, ···, K)呢?答案是肯定的。
假設按照某給定順序x0, x1, ···, xK依照(2.92)進行連續正交化過程,得到z0, z1, ···, zK。對于排在最后一位的解釋變量如下關系成立。由于
是解釋變量xK的回歸系數,因此
就是xK所解釋的y的部分。如果從y中剔除
,并把得到的
作為被解釋變量,用剩下的x0, x1, ···, xK?1作為解釋變量,則回歸結果就和xK無關了。在這個新的回歸中,xK?1就變成了最后一個被正交化的解釋變量,其對應的正交向量為zK?1。因此,xK?1的回歸系數就用
和zK?1依照式(2.86)計算:

以此類推,便可以按照的倒序求解出多元回歸中所有解釋變量的回歸系數的OLS估計
(Drygas 2011):

最后用本節開始的包含兩個解釋變量x0和x1的回歸模型(2.88)驗證一下,即通過式(2.96)和式(2.97)求解x0的OLS回歸系數。令z0=1并假設
的表達式已經求出。根據式(2.97)可得
:

它正是式(2.89)中的表達式。