書名: 數(shù)據(jù)科學(xué)工程實(shí)踐:用戶行為分析與建模、A/B實(shí)驗(yàn)、SQLFlow作者名: 謝梁 繆瑩瑩 高梓堯 王子玲等本章字?jǐn)?shù): 1406字更新時(shí)間: 2021-06-24 11:29:39
2.1 生存分析與二手車定價(jià)案例
本節(jié)我們以二手車定價(jià)為例,重點(diǎn)說(shuō)明使用生存分析方法的原因。
2.1.1 二手車定價(jià)背景
假設(shè)有一個(gè)自營(yíng)二手車在線銷售平臺(tái),采用“自采自銷”的運(yùn)營(yíng)模式,其業(yè)務(wù)流程可以簡(jiǎn)化為以下幾個(gè)步驟。
- 向市場(chǎng)收購(gòu)二手車并采集相關(guān)信息。
- 租賃倉(cāng)儲(chǔ)服務(wù),運(yùn)輸、存放及維護(hù)已購(gòu)入的二手車。
- 人工定價(jià)并在自營(yíng)平臺(tái)發(fā)布車輛出售信息。
- 運(yùn)營(yíng)人員基于銷售情況對(duì)出售價(jià)格做相應(yīng)的調(diào)整。
- 用戶訂購(gòu),車輛售出。
業(yè)務(wù)流程及相關(guān)信息如圖2-1所示。

圖2-1 二手車業(yè)務(wù)流程及相關(guān)信息
目前,由于人工定價(jià)的效率過(guò)低且準(zhǔn)確度不足,經(jīng)常出現(xiàn)定價(jià)偏高或偏低的情況,需要對(duì)價(jià)格進(jìn)行二次調(diào)整。因此,平臺(tái)希望以“毛利最大化”為原則,通過(guò)建模分析找到最優(yōu)定價(jià)策略并實(shí)現(xiàn)自動(dòng)化定價(jià)。其中,毛利(Profit)等于主營(yíng)業(yè)務(wù)收入(Revenue)減去主營(yíng)業(yè)務(wù)成本(Cost),公式如下。
Profit = Revenue ? Cost
該平臺(tái)的主營(yíng)業(yè)務(wù)收入及主營(yíng)業(yè)務(wù)成本構(gòu)成如下。
- 主營(yíng)業(yè)務(wù)成本:包括收購(gòu)、倉(cāng)儲(chǔ)及維護(hù)成本,其中倉(cāng)儲(chǔ)及維護(hù)成本與車輛庫(kù)存存放的時(shí)長(zhǎng)呈線性正相關(guān)。
- 主營(yíng)業(yè)務(wù)收入:二手車銷售收入。
假設(shè)二手車的定價(jià)為p,每輛車的收購(gòu)成本為Cp,每日每輛二手車的倉(cāng)儲(chǔ)及維護(hù)成本為Cs,用dt表示平均存放時(shí)長(zhǎng),一般情況下,價(jià)格越高存放時(shí)間越長(zhǎng),則每輛二手車銷售收入可以表示為
Revenue(p)=p
每輛二手車主營(yíng)業(yè)務(wù)成本可以表示為

其中,P(t,p)代表在價(jià)格等于p的條件下,車輛存放到第t日仍然沒(méi)有賣出去的概率。因此,每輛二手車?yán)麧?rùn)可以表示為價(jià)格的函數(shù):

可見,在最優(yōu)價(jià)格求解的過(guò)程中有兩個(gè)核心點(diǎn):第一,求解在不同價(jià)格水平下,具備不同信息參數(shù)的二手車隨時(shí)間連續(xù)變化的留存(未被出售)概率曲線,進(jìn)而得出隨時(shí)間推移,車輛消耗的成本;第二,基于毛利最大化原則尋找最優(yōu)價(jià)格。
2.1.2 為什么不選擇一般回歸模型
已知問(wèn)題核心在于求解二手車隨時(shí)間連續(xù)變化的留存概率曲線,而一般的回歸模型,如邏輯斯蒂回歸(Logistics Regression)模型、線性回歸(Linear Regression)模型或分類模型,如決策樹(Decision Tree)等處理的均是截面數(shù)據(jù),模型輸出結(jié)果是特定時(shí)間截面下的事件發(fā)生概率,為了有效產(chǎn)出分析結(jié)果,一種操作方式是給定觀察時(shí)間窗(如一周、一個(gè)月等),在觀察時(shí)間窗結(jié)束時(shí),用戶的行為可以劃分為已購(gòu)買和未購(gòu)買兩類,通過(guò)模型分析用戶在不同價(jià)格及車輛信息下購(gòu)買的概率,進(jìn)而求解最優(yōu)價(jià)格,但是這樣做存在如下兩個(gè)不足。
- 由于無(wú)法有效處理連續(xù)時(shí)間信息,導(dǎo)致分析效率低,且無(wú)法精細(xì)反映車輛留存概率與時(shí)間的關(guān)系,定價(jià)精準(zhǔn)度受限。
- 如果在觀察時(shí)間窗途中調(diào)價(jià),將影響車輛出售概率,難以分析調(diào)價(jià)對(duì)于出售概率的影響(只選擇調(diào)價(jià)前或調(diào)價(jià)后的樣本作為分析對(duì)象均可能丟失價(jià)格信息)。
2.1.3 為什么選擇生存分析
與只關(guān)注事件結(jié)果的模型不同,生存分析既關(guān)注事件結(jié)果又關(guān)注結(jié)果發(fā)生時(shí)間。既研究結(jié)果影響因素,又研究影響因素與結(jié)果出現(xiàn)時(shí)間長(zhǎng)短之間的關(guān)系,是研究生存現(xiàn)象(事件結(jié)果)和發(fā)生時(shí)間關(guān)系及統(tǒng)計(jì)規(guī)律的一門學(xué)科。
與一般回歸模型相比,生存分析具備以下兩點(diǎn)優(yōu)勢(shì)。
- 將結(jié)果發(fā)生的時(shí)間因素納入分析框架,能夠有效刻畫事件結(jié)果隨時(shí)間變化的規(guī)律。
- 通過(guò)對(duì)這類觀測(cè)數(shù)據(jù)進(jìn)行特殊處理,可以充分利用數(shù)據(jù)提供的不完全信息,應(yīng)對(duì)數(shù)據(jù)丟失及變化。
生存分析可應(yīng)用于任何與時(shí)間有關(guān)的行為(事件)分析中,包括病人的治愈情況、轄區(qū)婚姻持續(xù)情況、某產(chǎn)品出現(xiàn)故障的情況等。在二手車定價(jià)案例中,套用生存分析框架,我們可以有效解決中途調(diào)價(jià)的問(wèn)題,并能刻畫車輛留存隨時(shí)間變化的情況,實(shí)現(xiàn)最優(yōu)自動(dòng)化定價(jià)。
接下來(lái)將結(jié)合案例向大家介紹生存分析的理論框架及Python代碼實(shí)踐。
- 我們都是數(shù)據(jù)控:用大數(shù)據(jù)改變商業(yè)、生活和思維方式
- 大規(guī)模數(shù)據(jù)分析和建模:基于Spark與R
- Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)
- App+軟件+游戲+網(wǎng)站界面設(shè)計(jì)教程
- 使用GitOps實(shí)現(xiàn)Kubernetes的持續(xù)部署:模式、流程及工具
- 數(shù)據(jù)庫(kù)原理與設(shè)計(jì)(第2版)
- 圖數(shù)據(jù)實(shí)戰(zhàn):用圖思維和圖技術(shù)解決復(fù)雜問(wèn)題
- 達(dá)夢(mèng)數(shù)據(jù)庫(kù)運(yùn)維實(shí)戰(zhàn)
- 新手學(xué)會(huì)計(jì)(2013-2014實(shí)戰(zhàn)升級(jí)版)
- MySQL技術(shù)內(nèi)幕:SQL編程
- 數(shù)據(jù)修復(fù)技術(shù)與典型實(shí)例實(shí)戰(zhàn)詳解(第2版)
- 計(jì)算機(jī)視覺(jué)
- SQL Server 2008寶典(第2版)
- 數(shù)據(jù)指標(biāo)體系:構(gòu)建方法與應(yīng)用實(shí)踐
- 從Lucene到Elasticsearch:全文檢索實(shí)戰(zhàn)