- 數據科學工程實踐:用戶行為分析與建模、A/B實驗、SQLFlow
- 謝梁 繆瑩瑩 高梓堯 王子玲等
- 2568字
- 2021-06-24 11:29:37
1.1 深入理解選擇行為
本節將從我們生活中常見的出行選擇問題出發,透過表象探究本質,再映射到選擇行為的經濟學理論,包括理性人選擇理論、效用理論及揭示性偏好理論,最后引出選擇行為的計量分析框架—離散選擇模型。
1.1.1 選擇無處不在
人們日常生活中絕大多數的決定和行為,都涉及選擇:早上去上班,我們需要決定通勤方式;去食堂吃飯,我們需要選擇菜品;購買一臺冰箱,我們需要選擇品牌和型號。隨著經濟的快速發展,人們的物質和精神生活日益豐富,面臨的選擇也越來越多。作為數據分析師,在面對常見的選擇行為分析問題時,應該在數據之外深入思考這些選擇行為的本質。下面以選擇出行方式為例,剖析選擇行為的具體邏輯,為后面的學習做好鋪墊。
1. 出行選擇的場景還原
出行就是“在某時從A點到達B點”,這一行為主要面臨的選擇是“以什么方式前往”,回想一下我們平時做出行選擇時是否有如下參考信息浮現在腦海。
- 可以選擇的交通方式有哪些?
- 同程的人多不多?
- 需要在什么時間到達目的地?
- 出行的預算是多少?
- 公共交通的便捷程度如何?
- 出行方式是否受天氣影響?
通常,我們會帶著這些疑問打開出行類App看看各類交通方式的花費、耗時及路線,可能還會打開天氣App看看未來一段時間是否下雨、是否有嚴重的霧霾,如圖1-1所示。

圖1-1 打開App查看出行路線和天氣
2. 出行選擇的決策邏輯
接下來,我們通過一個更加具體的案例說明出行選擇的決策邏輯:有200個家庭要進行家庭旅行,每個家庭的情況不同(包括出行人數、目的地、家庭年收入等),每個家庭都會在飛機、火車、長途汽車及自駕車中選擇一種作為出行方式。
不同的家庭會有不同的選擇,在選擇的表象下有著相似的決策邏輯。我們嘗試置身于這個場景中,在大腦里構建一張類似圖1-2的打分表。出行方式的屬性可以主要歸結為行程外(等車)耗時、行程中耗時、行程花費、舒適性等。確定這些出行方式的屬性后,再結合自身屬性(家庭收入、出行人數等),對每個選項進行定性/定量的排序,得到最適合自己的選擇結果。

圖1-2 旅行出行方式打分表
在選擇的過程中,如果某個因素發生變化,就有可能對選擇結果產生影響。例如:其他因素保持不變,由于航空公司促銷,機票價格比火車票還便宜,你的選擇是不是會從火車改為飛機呢?再假設,臨行前你收獲一筆超過預期的獎金,可支配的現金增多,是不是也會從火車改為飛機呢?
回憶一下我們生活中其他方面的選擇,其實也秉持類似的方式。經濟學家、心理學家經過長期研究,發現人類個體間的“選擇之道”存在較高的相似性,對這些相似性加以總結就形成了一系列選擇行為的經濟學理論。這些長期沉淀下來的理論對于數據分析師來說是非常有價值的,它不僅能幫助我們從本質上理解相關計量選擇模型的原理,還能在對業務方進行分析闡述時有理論背書。下面我們開始學習選擇行為的經濟學理論。
1.1.2 選擇行為的經濟學理論
選擇行為主要有兩個經濟學派別,分別是理性人選擇和行為經濟學。盡管行為經濟學在某些方面對理性人選擇提出了挑戰,但理性人選擇仍然是群體選擇行為分析的主流理論框架。本章后續內容均基于理性人選擇理論。
1. 理性人選擇理論
理性人選擇是指經濟決策的主體是充滿理智的,他們對于所處環境具有完備的知識,能夠找到實現目標的所有備選方案,有穩定且清晰的偏好,擁有很強的計算能力,能預測每種方案的選擇后果,并依據某種衡量標準從這些方案中做出最優選擇,選擇的唯一目標是自身經濟利益最大化。
結合上文的出行案例,我們先來解釋什么是理性人選擇。當我們選擇出行方式時,首先確認每種交通方式的重要屬性(行程外耗時、行程中耗時、行程花費、舒適性)、自身屬性(家庭收入、出行人數)和客觀因素(天氣),然后基于這些信息為每個方案計算一個偏好值并排序,最終選擇偏好值最大的選項。如果選擇了自駕車,那么說明綜合多種因素,自駕是最能獲得滿足感的出行方式。
2. 效用理論
消費者內心的滿足感其實可以用一個經濟學的詞匯來表示,即“效用”。依照每種選擇方案的“效用”排序進行選擇的過程叫作“效用最大化”,這就是理性人選擇理論最常用的準則。學術上的描述是當消費者面對一系列備選商品的時候,他們會清楚地計算出每個商品的效用,并嚴格將所有商品按照效用排序,選擇效用最大化的商品。
讀到這里你也許會有疑問,盡管我們認同選擇時基于理性人選擇理論,但如此抽象的理論怎樣才能在實際的數據分析中發揮作用呢?哪怕知道了影響選擇行為的因素,也無法得出效用的計算公式。此時,我們需要繼續學習揭示性偏好理論。
3. 揭示性偏好理論
揭示性偏好理論由美國經濟學家保羅·安東尼·薩繆爾森提出。該理論表明:可以結合消費者歷史消費行為,分析消費者偏好,通過統計分析的方式得到相關因素的量化影響。該理論有以下兩個重要假設。
1)消費者在進行實際消費行為時,若從備選方案中選擇了一個選項,即為首選選項,則該選項效用是最大的。
2)在給定的消費者預算、商品價格等因素不變的情況下,如果消費者購買了某種產品,那么他將始終做出相同的選擇。
在該理論提出之初,包含的影響因素有消費者預算、商品價格以及其他商品或消費者屬性。對這些因素進行歸納和拓展,再結合上述假設,就形成了離散選擇模型的模型框架。
1.1.3 離散選擇模型
了解了必要的理論知識后,我們開始學習離散選擇模型(Discrete Choice Model,DCM)。DCM不是單一模型,而是一個模型簇,它包含了一系列應對不同選擇場景的模型,例如邏輯回歸(Logistics Regression,LR)模型、多項Logit(MultiNomial Logit,MNL)模型及嵌套Logit(Nested Logit Model,NL)模型等,在1.2節、1.3節中會深入介紹這些模型的使用方法。

圖1-3 離散選擇模型的元素及結構
如圖1-3所示,DCM主要包括5個部分,分別是決策者(決策者屬性)、備選項集合、備選項屬性、決策準則和選擇結果,數學表達形式如下。
選擇結果 = F(決策者,備選項集合,備選項屬性)
其中,F是決策準則,即效用最大化準則。模型最終實現的功能是在給定決策者、備選項集合、備選項屬性后,基于效用最大化準則,得到選擇結果。
回到旅行出行方式選擇的案例中,我們對例子中的元素進行映射。
- 決策者:一次選擇行為的主體(決策者屬性包括家庭收入、出行人數、天氣)。
- 備選項集合:飛機、火車、長途汽車、自駕車(不同決策者的備選項集合可以不同)。
- 備選項屬性:行程外耗時、行程中耗時、行程花費、舒適性(不同備選項的屬性也可以不同)。
- 選擇準則:效用的最大化準則。
- 選擇結果:備選項中的一個選項(每個選擇過程均存在選擇結果)。