- 另類數據:投資新動力(數字經濟系列03)
- 王聞 孫佰清
- 6字
- 2025-08-08 15:15:31
二、文本數據
推特推文
在討論文本資料對于股票市場的影響時,作為全球領先社交媒體的推特(twitter)是繞不開的話題。特別是美國前任總統特朗普,和他的推特治國一樣,其推文(tweet)對股市的影響也成為當時金融市場的一大特色。彭博社財經記者Ponczek/Hajric(2018)總結了特朗普總統任期內前兩年的財經推文對股市的影響,并且總結在圖1.1中。而來自北歐和東歐的學者Gjerstad et al.(2021)在新近發表的一篇文章中研究了特朗普總統推文對全球金融市場的影響??偨Y來說,在特朗普發布推特之后,無論其內容如何,市場不確定性增強,交易量增加,同時美國股市會下跌。當采用LDA的主題模型方法進行分析時,特朗普總統的大多數推文不會影響金融市場,但是當出現和貿易戰相關的推文時,股市價格就會下跌。不僅如此,貿易戰的推文還會影響到其他金融市場,比如中國股市對于這些推文的反應就是負面的,但是黃金價格的反應則是正面的。
圖1.1 特朗普總統的財經推文

資料來源:Ponczek/Hajric (2018)。
1.iSentium
現在討論推文影響股市的用例,它改編自摩根大通分析師Kolanovic/Krishnamachari(2017)的研究報告,其中使用了文本分析公司iSentium的數據。[4]iSentium是一家位于美國邁阿密的文本分析公司,它提供的一個數據服務就是,基于推特的推文提供日方向指標(Daily Directional Indicator/DDI),這是一個實時的情緒指標,它可以幫助投資者判斷推文對于市場的影響。DDI指標的構建方式如下:
(1)根據推文數量和實現波動率指標從標普500指數中選擇最具代表性的100只股票;
(2)根據一種自然語言處理算法對推文賦予一個情緒分數(sentiment score);
(3)通過合并推文分數,這樣就在每個交易日的上午8點半到下午4點半之間的每分鐘生成一個情緒指標,然后對過往10天的情緒通過指數加權移動平均算法生成當天的情緒指標;
(4)根據過往兩天情緒得分使用線性回歸來預測標普500指數的回報率,其中參數值通過卡爾曼濾波方法來獲得。
摩根大通公司根據iSentium的DDI指標構建了JPUSISEN指數,后者反映了在標普500指數成分股上持有多頭或空頭得到的投資業績。通過對JPUSISEN指數從2013年1月到2017年1月的歷史回測,就可以得到13.7%的年化收益率以及1.40的信息比率;而在同一個時段內,投資標普500指數只能得到12.1%的年化收益率以及0.95的信息比率。表1.1總結了這些投資績效,其中iSentium多空策略表示在看漲信號出現時買入,同時在看跌信號出現時做空;純多頭策略(longonly)表示只是在看漲信號出現時買入,同時在看跌信號出現時不做空;而純空頭策略(short-only)則表示只是在看跌信號出現時賣出。
表1.1 iSentium指數和標普500指數投資績效

續表

此外,表1.2表明情緒信號和經典的股票風險溢價之間的相關關系,結果表明它和這些風險指標的相關性都很低,這就表明當把基于社交媒體這種另類數據集產生的交易信號納入考量的時候,它可以成為投資組合的風險溢價來源。
表1.2 iSentium情緒信號和經典的股票風險溢價之間的相關系數矩陣

2.快樂指數
推特這樣的社交媒體不僅可以衡量人們的情緒,而且也可以衡量人們的幸福和快樂感。長久以來,經濟學家就希望找到一個指標來度量人們的快樂程度。早在1880年,經濟學家弗朗西斯·埃奇沃斯(Francis Edgeworth)就使用快樂計(hedonometer)來描述一個“理想的完美工具,一個可以不斷記錄個人所經歷快樂高度的心理物理機器”。近些年來,美國佛蒙特大學(University of Vermont)的學者Peter Dodds和Chris Danforth以及其他學者通過一系列的研究針對各種不同文本開發了快樂指數(hedonometer index),這些文本包括國情咨文、歌曲歌詞、線上的推文以及博客等。[5]這些學者把他們創建的指標稱為“道瓊斯幸福指數”。就方法論而言,他們構建了一個包含大約5000個常用詞的語料庫,同時這些詞有一個快樂分數(happiness score),后者是從亞馬遜公司運營的Amazon Mechanical Turk(MTurk)得到的。[6]MTurk本質上是一個面向大眾的眾包平臺,也就是通過眾人的努力來完成任務的平臺。[7]快樂分數的刻度從1到9,圖1.2給出了快樂計數據庫中一些最快樂和最悲傷的詞語。像“大笑”(laughter)這樣的詞語會有很高的快樂分數,而像“戰爭”(war)這樣的詞語則就只有很低的幸福分數。當然,人們對于有些詞語的相對快樂分數會有不同的看法。
圖1.2 快樂計語料庫中最快樂和最悲傷的詞

資料來源:Denev/Amen(2020)。
就推特的推文來說,這些學者每天會隨機抽取10%左右的推文,然后根據語料庫的快樂分數給推文中的詞語打分,然后由此估計社會整體的快樂程度。顯然這種方法存在著選擇性偏誤的問題,因為它只能衡量那些用英文發表推文的人群快樂程度。但是它的好處就是可以很快地更新數據,所以就有較低的延遲性。圖1.3顯示了從2021年初到11月初的快樂指數,其中的最低點出現在1月6日特朗普總統支持者在國會大廈制造的騷亂。與之相比,在復活節、母親節和萬圣節等節假日前后的快樂指數則比較高。
圖1.3 2021年前11個月的快樂指數

資料來源:https://hedonometer.org/timeseries/en_all/?from=2021-01-01&to=2021-11-01。
快樂指數能否和金融市場掛鉤呢?從直覺上看,人們的幸福感會和消費者信心程度有關,因此前者可以成為投資者風險情緒的指標。為了驗證這一點,Denev/Amen(2020)就在快樂指數基礎上創建了快樂情緒指數(Happiness Sentiment Index/HSI)。在開發這個指數的過程中,Denev/Amen首先排除了周末時點,因為這些時點上不會有金融市場交易。其次,他們還排除了快樂指數發生大幅跳躍(變動幅度大于0.05)的日期。最后,他們還排除了所有美國的假日,因為這些日期的快樂指數通常較高。在排除掉這些時點之后,Denev/Amen使用了1個月簡單移動平均(simple moving average/SMA)的技術來平滑指數。然后使用2個月滾動窗口進行百分位排序,由此就把指標標準化在0和1之間。圖1.4刻畫了快樂情緒指數和標普500指數期貨最近合約的月收益率,其中左側縱坐標軸刻畫了指數期貨收益率,而右側縱坐標軸刻畫了快樂情緒指數。從中可以看出兩者之間存在著一定的關系。如果用快樂情緒指數相對標普500指數進行回歸,樣本時段是2009年2月到2019年7月,那么貝塔系數的t-統計量等于7.7,這對應的p值就是2.13×10[8],因此標普500指數和快樂情緒指數之間就存在著統計顯著關系。這個統計結論可以讓投資者嘗試使用快樂情緒指數作為股票市場交易的信號。當然為了讓交易更有效率,在實務中需要把快樂情緒指數和其他的市場情緒指標結合起來,進而生成更有效的交易信號。
圖1.4 股指期貨收益率和快樂情緒指數

1:標普500指數期貨收益率 2:快樂情緒指數資料來源:Denev/Amen(2020)。
3.FOMC
FOMC是美國聯邦儲備委員會下屬的聯邦公開市場委員會(Federal Open Market Committee)的英文簡稱,它負責美國常規貨幣政策中最為重要的部分,就是進行公開市場操作。每年FOMC會召開八次會議,這些會議的決策會受到包括股票市場在內所有市場參與者的關注,而且眾多研究表明FOMC會顯著影響資產價格。[9]在下一章中我們會看到FOMC影響債市和匯市的用例。
Azar/Lo(2016)基于推特的推文分析了FOMC開會前后的股市收益率。他們首先在FOMC開會之前對推文進行過濾,從而把包含FOMC、聯儲會以及樣本時段上聯儲會主席Bernarke和Yellen的推文篩選出來。接下來使用由De Smedt/Daelemans(2012)開發的Python軟件包Pattern計算過濾后的每條推文的情緒,[10]這些情緒分數介于-1到+1之間。這種算法依賴于SentiWordnet數據庫,后者可以對每個詞給出正面或負面的分數,同時它還考慮了形容詞和副詞對分數產生的放大和縮減效應。因此,對于“不好”這個詞而言,它就表達了負面的情緒。然后Azar/Lo根據發布推文的推特賬戶跟隨者(followers)的數量對推文進行加權,以此衡量推文所覆蓋的人群數量。這樣針對每個交易日t,作者就可以得到一個加權平均的情緒分數。
在得出每個交易日的情緒得分之后,Azar/Lo(2016)分析了下面的股市收益率回歸:

其中的因變量Rt表示t日美國股票市場CRSP價值加權指數超出當日無風險率的超額收益率。[11]各個自變量的定義是:
(1)DFt表示FOMC在t日閉會的啞變量,如果FOMC在t日閉會則取值為1,否則為0。
(2)TPt-1表示t-1日的推文情緒分數,其中發推的時點是從t-2日下午4點到t-1日下午4點,需要注意的是,這個變量可以在t-1日市場收盤前獲取,因此可以在t-1日收盤前確定在t日的頭寸。作者把它標準化為一個均值為0、方差為1的變量。
(3)DTPt-1=DFt×TPt-1,表示在FOMC開會期間的推文加權平均極性。
(4)RPi,t=(HMLt,SMBt,UMBt),分別表示價值因子、規模因子和動量因子在t日的風險溢價。
(5)VIXt表示在t日由芝加哥期權交易所(CBOE)發布的波動率指數。
(6)Rt-1表示在t-1日的市場超額收益率。
表1.3給出了四種包含不同自變量情況下的回歸系數,從中可以看出,當不考慮Fama/French(1993)的價值因子和規模因子、Carhart(1997)的動量因子以及波動率指標時,推文情緒和FOMC會議就會對市場收益率產生影響。但是如果考慮了上述因子收益率以及波動率指標之后,除了在FOMC開會時,否則推文情緒對于市場收益率的影響就微不足道了。
表1.3 股市收益率回歸

為了分析推文情緒的投資價值,Azar/Lo(2016)就模擬了一個基于凱利標準(Kelly Criterion)的交易策略。[12]假定現在投資一種風險資產和一種無風險資產,同時根據今天對明天風險資產收益率的預測來每天調整倉位。為簡單起見,假定在t日的無風險率是Rf,t,同時風險資產的收益率服從均值為μt、方差為的正態分布。在t日的財富是wt,把其中ft的比率投入到風險資產上,這樣風險資產的總投資就是ft·wt。假定投資者具有對數效用函數,那么最優投資策略就是:

這個投資策略可以最大化上述兩資產組合的幾何增長率期望值。如果ft<0,那么就做空風險資產;而如果ft>1,則需要做空無風險資產。假設金融市場對于杠桿率或者做空比率存在某個界限L,那么就有-L≤ft≤L。因此現在的兩資產組合的最優策略就是:

為了計算投資組合權重,我們需要一個模型能夠生成對于收益率均值和方差的預測(和
)。下面使用線性模型進行預測:
Rt=α+βXt+εt
其中Rt表示市場指數超出無風險率Rf,t的收益率,Xt表示在t日之前觀察到的信號向量,這樣就有:

為了量化推特情緒的投資價值,Azar/Lo就考慮了下面四種不同信號向量Xt:
(1)模型1:Xt是一個空向量,所以線性模型就是Rt=α+εt
(2)模型2:Xt=(DFt)
(3)模型3:Xt=(DFt,TPt-1)
(4)模型4:Xt=(DFt,DTPt-1)
模型1可以看作是一個基準模型,其中市場收益率的分布不會在FOMC公告日前后發生變化;模型2增加了一個啞變量來解釋收益率分布的變化;模型3同時包含了模型2中的啞變量和t-1日的推特情緒指標;模型4是模型3的一個變種,其中考慮了推特情緒和FOMC會議啞變量的交互作用。
針對不同的模型進行回歸就可以得到對應的和
估計值,由此確定每日持有的風險資產權重
。上述這些模型可以幫助衡量推文的信息含量。如果第三個模型產生的盈利最高,這就意味著有關美聯儲的推文總是會影響市場,即使是在那些FOMC不做任何決定的時期。如果第四個模型最賺錢,那就意味著那些FOMC不做決定的日子里推文更像是噪聲,而只有在FOMC公告之前不久的推文才具有投資含義。
圖1.5給出了基于上述四種模型得到的投資策略在樣本外的模擬績效。這里所謂的樣本外的含義,就是為了避免前瞻性偏誤(lookahead bias),[13]在預測某年的收益率時僅僅使用在當年之前的推文和市場數據。圖1.5從左至右給出了杠桿率分別等于1、2和4的情形。從中我們可以看到,在采用更高的杠桿率(等于2或者4)的情況下,使用社交媒體信息的模型產生的投資收益要好于僅僅使用市場收益以及FOMC會議啞變量的模型。表1.4給出了通過樣本外回歸估計得到的不同投資組合績效。從表1.4中可以看出,當杠桿率設定為2或者4時,基于推特信息的策略就具有更好的績效,因為前者的收益率以及信息比率要高于僅僅投資于市場指數或者是使用FOMC會議信息的策略。此外,模型4的投資績效要好于模型3的績效,換句話說,當我們僅僅使用FOMC開會時的推特而不是每天使用推特,那么投資績效會更好。這個結論表明,當出現重大經濟新聞事件的時候,社交媒體的信息價值會更高。
圖1.5 四種策略在不同杠桿率的財富變動

資料來源:Azar/Lo(2016)。
表1.4 四種策略的投資績效(%)

需要指出的是,Azar/Lo(2016)分析所覆蓋的時段是一個股市不斷上漲并且利率水平很低的時期,因此在股市下跌以及利率高企的市場環境下,這樣的策略是否有效就值得進一步研究了。另外兩位作者分析的樣本時段中FOMC會議數量比較少,這樣類似的分析可以應用到其他重要經濟體的央行,比如歐洲央行、日本央行以及中國的人民銀行,探討社交媒體的信息是否會影響到股市和債市。