赌钱捕鱼

書名：數據科學工程實踐：用戶行為分析與建模、A/B實驗、SQLFlow
作者名：謝梁繆瑩瑩高梓堯王子玲等
本章字數： 2568字
更新時間： 2021-06-24 11:29:37

1.1　深入理解選擇行為

本節將從我們生活中常見的出行選擇問題出發，透過表象探究本質，再映射到選擇行為的經濟學理論，包括理性人選擇理論、效用理論及揭示性偏好理論，最后引出選擇行為的計量分析框架—離散選擇模型。

1.1.1　選擇無處不在

人們日常生活中絕大多數的決定和行為，都涉及選擇：早上去上班，我們需要決定通勤方式；去食堂吃飯，我們需要選擇菜品；購買一臺冰箱，我們需要選擇品牌和型號。隨著經濟的快速發展，人們的物質和精神生活日益豐富，面臨的選擇也越來越多。作為數據分析師，在面對常見的選擇行為分析問題時，應該在數據之外深入思考這些選擇行為的本質。下面以選擇出行方式為例，剖析選擇行為的具體邏輯，為后面的學習做好鋪墊。

1. 出行選擇的場景還原

出行就是“在某時從A點到達B點”，這一行為主要面臨的選擇是“以什么方式前往”，回想一下我們平時做出行選擇時是否有如下參考信息浮現在腦海。

可以選擇的交通方式有哪些？
同程的人多不多？
需要在什么時間到達目的地？
出行的預算是多少？
公共交通的便捷程度如何？
出行方式是否受天氣影響？

通常，我們會帶著這些疑問打開出行類App看看各類交通方式的花費、耗時及路線，可能還會打開天氣App看看未來一段時間是否下雨、是否有嚴重的霧霾，如圖1-1所示。

圖1-1　打開App查看出行路線和天氣

2. 出行選擇的決策邏輯

接下來，我們通過一個更加具體的案例說明出行選擇的決策邏輯：有200個家庭要進行家庭旅行，每個家庭的情況不同（包括出行人數、目的地、家庭年收入等），每個家庭都會在飛機、火車、長途汽車及自駕車中選擇一種作為出行方式。

不同的家庭會有不同的選擇，在選擇的表象下有著相似的決策邏輯。我們嘗試置身于這個場景中，在大腦里構建一張類似圖1-2的打分表。出行方式的屬性可以主要歸結為行程外（等車）耗時、行程中耗時、行程花費、舒適性等。確定這些出行方式的屬性后，再結合自身屬性（家庭收入、出行人數等），對每個選項進行定性/定量的排序，得到最適合自己的選擇結果。

圖1-2　旅行出行方式打分表

在選擇的過程中，如果某個因素發生變化，就有可能對選擇結果產生影響。例如：其他因素保持不變，由于航空公司促銷，機票價格比火車票還便宜，你的選擇是不是會從火車改為飛機呢？再假設，臨行前你收獲一筆超過預期的獎金，可支配的現金增多，是不是也會從火車改為飛機呢？

回憶一下我們生活中其他方面的選擇，其實也秉持類似的方式。經濟學家、心理學家經過長期研究，發現人類個體間的“選擇之道”存在較高的相似性，對這些相似性加以總結就形成了一系列選擇行為的經濟學理論。這些長期沉淀下來的理論對于數據分析師來說是非常有價值的，它不僅能幫助我們從本質上理解相關計量選擇模型的原理，還能在對業務方進行分析闡述時有理論背書。下面我們開始學習選擇行為的經濟學理論。

1.1.2　選擇行為的經濟學理論

選擇行為主要有兩個經濟學派別，分別是理性人選擇和行為經濟學。盡管行為經濟學在某些方面對理性人選擇提出了挑戰，但理性人選擇仍然是群體選擇行為分析的主流理論框架。本章后續內容均基于理性人選擇理論。

1. 理性人選擇理論

理性人選擇是指經濟決策的主體是充滿理智的，他們對于所處環境具有完備的知識，能夠找到實現目標的所有備選方案，有穩定且清晰的偏好，擁有很強的計算能力，能預測每種方案的選擇后果，并依據某種衡量標準從這些方案中做出最優選擇，選擇的唯一目標是自身經濟利益最大化。

結合上文的出行案例，我們先來解釋什么是理性人選擇。當我們選擇出行方式時，首先確認每種交通方式的重要屬性（行程外耗時、行程中耗時、行程花費、舒適性）、自身屬性（家庭收入、出行人數）和客觀因素（天氣），然后基于這些信息為每個方案計算一個偏好值并排序，最終選擇偏好值最大的選項。如果選擇了自駕車，那么說明綜合多種因素，自駕是最能獲得滿足感的出行方式。

2. 效用理論

消費者內心的滿足感其實可以用一個經濟學的詞匯來表示，即“效用”。依照每種選擇方案的“效用”排序進行選擇的過程叫作“效用最大化”，這就是理性人選擇理論最常用的準則。學術上的描述是當消費者面對一系列備選商品的時候，他們會清楚地計算出每個商品的效用，并嚴格將所有商品按照效用排序，選擇效用最大化的商品。

讀到這里你也許會有疑問，盡管我們認同選擇時基于理性人選擇理論，但如此抽象的理論怎樣才能在實際的數據分析中發揮作用呢？哪怕知道了影響選擇行為的因素，也無法得出效用的計算公式。此時，我們需要繼續學習揭示性偏好理論。

3. 揭示性偏好理論

揭示性偏好理論由美國經濟學家保羅·安東尼·薩繆爾森提出。該理論表明：可以結合消費者歷史消費行為，分析消費者偏好，通過統計分析的方式得到相關因素的量化影響。該理論有以下兩個重要假設。

1）消費者在進行實際消費行為時，若從備選方案中選擇了一個選項，即為首選選項，則該選項效用是最大的。

2）在給定的消費者預算、商品價格等因素不變的情況下，如果消費者購買了某種產品，那么他將始終做出相同的選擇。

在該理論提出之初，包含的影響因素有消費者預算、商品價格以及其他商品或消費者屬性。對這些因素進行歸納和拓展，再結合上述假設，就形成了離散選擇模型的模型框架。

1.1.3　離散選擇模型

了解了必要的理論知識后，我們開始學習離散選擇模型（Discrete Choice Model，DCM）。DCM不是單一模型，而是一個模型簇，它包含了一系列應對不同選擇場景的模型，例如邏輯回歸（Logistics Regression，LR）模型、多項Logit（MultiNomial Logit，MNL）模型及嵌套Logit（Nested Logit Model，NL）模型等，在1.2節、1.3節中會深入介紹這些模型的使用方法。

圖1-3　離散選擇模型的元素及結構

如圖1-3所示，DCM主要包括5個部分，分別是決策者（決策者屬性）、備選項集合、備選項屬性、決策準則和選擇結果，數學表達形式如下。

選擇結果 = F（決策者，備選項集合，備選項屬性）

其中，F是決策準則，即效用最大化準則。模型最終實現的功能是在給定決策者、備選項集合、備選項屬性后，基于效用最大化準則，得到選擇結果。

回到旅行出行方式選擇的案例中，我們對例子中的元素進行映射。

決策者：一次選擇行為的主體（決策者屬性包括家庭收入、出行人數、天氣）。
備選項集合：飛機、火車、長途汽車、自駕車（不同決策者的備選項集合可以不同）。
備選項屬性：行程外耗時、行程中耗時、行程花費、舒適性（不同備選項的屬性也可以不同）。
選擇準則：效用的最大化準則。
選擇結果：備選項中的一個選項（每個選擇過程均存在選擇結果）。

官术网_书友最值得收藏!

數據科學工程實踐：用戶行為分析與建模、A/B實驗、SQLFlow

1.1 深入理解選擇行為

1.1.1 選擇無處不在

1.1.2 選擇行為的經濟學理論

1.1.3 離散選擇模型

1.1　深入理解選擇行為

1.1.1　選擇無處不在

1.1.2　選擇行為的經濟學理論

1.1.3　離散選擇模型