- 數據分析咖哥十話:從思維到實踐促進運營增長
- 黃佳
- 2380字
- 2024-12-16 16:52:40
三、積跬步以察千里:數據的采集與治理
題解 本節標題化用《荀子·勸學》中的“不積跬步,無以至千里;不積小流,無以成江海[6]”。數據的采集是一個長期的積累工作,包括數據埋點、收集、清洗等多個環節,不可能一蹴而就。把原句的“至”替換為“察”,意在提醒大家數據的采集是洞察價值的起點。
[6] 含義類似的古代名句還有《道德經》中的“合抱之木,生于毫末;九層之臺,起于累土;千里之行,始于足下”。
咖哥繼續說:“沒有足夠數量和質量的數據,數據分析就是無源之水、無本之木。數據從何而來?小雪,你來說說數據采集的步驟。提示一下,你可以先思考我們為什么要采集數據。”
小雪回答:“我明白了,咖哥,你這個提示的意思是要我先明確目標,再采集數據。不過,對于具體的數據采集步驟,我沒有實際經驗,還是想聽聽咖哥你的專業看法。”
咖哥聽了這話后繼續開講。
1 采集數據之前先明確目標
目標決定數據的來源和采集方法。如果我們采集數據的目的是學習數據分析方法和數據挖掘算法,那么有很多公開的數據集可以下載。例如,知名的數據科學網站Kaggle中就有很多有價值的數據集,阿里云的天池網站中也提供了很多數據集。
如果數據是為運營服務的,則要從業務本身出發,多角度采集數據。Avinash Kaushik在《Web Analytics》一書中將數據的來源分為4個部分:點擊流數據(clickstream data)、運營數據(outcomes data)、調研/定性數據(research/qualitative data)和競爭對手數據(competitive data)。點擊流數據指用戶瀏覽網站時留下的行為數據,如點擊率,跳出率等;運營數據指用戶使用服務或者產品(如網站或者移動端App)時被記錄下來的數據,如日活躍、月活躍用戶數等;調研數據是通過用戶調研手段(線上、線下問卷,線下調研或用戶訪談等)獲取的定性數據;競爭對手數據包括與自家產品有業務關系、競爭關系或存在某種利益關系的其他數據。
數據的采集并不容易。現代企業的IT系統多而復雜,從用戶點擊流數據、產品數據、營銷數據、社交平臺數據,到ERP系統和CRM系統數據,都由不同的系統進行管理和存儲,這樣數據也就被割裂分布在眾多系統中,形成了數據孤島。具有多元業務的企業的各部門也常常自建系統,這些系統滿足了單一的業務場景,卻使得企業數據難以被全局規劃、定義和管理。想象一下,如果沒有分析團隊和市場營銷團隊都能夠理解的統一標記和跟蹤策略,將點擊流數據和市場營銷數據集成在一起的工作就會很有挑戰性,做數據分析的難度也會很大。
2 數據中臺解決了什么問題
數據中臺能幫助企業解決數據難找、難用、割裂等問題。現代企業的目標是以用戶為中心,迅速響應用戶的需求。直接面對用戶的業務過程就是企業的“前臺”,而傳統的數據庫和各種IT系統就是企業的“后臺”。
企業從滿足用戶需求這一目標出發,需要提高自己的數據整合和治理能力,通過統一而高效的數據平臺為“前臺”業務賦能,用數據平臺的確定性來應對用戶需求的不確定性。
這就是數據中臺的核心價值。數據中臺是數據平臺的下一站,它為業務賦能。建設數據中臺的過程是數據平臺不斷進行自身治理、打破技術邊界、擁抱業務、容納業務、加強業務屬性的過程[7]。
[7] 此處說法引自王健的極客時間專欄“說透中臺”。
3 做好數據埋點,搜集有價值的信息
聽到這里,小雪問咖哥:“常聽人說做好埋點,這個過程是不是指數據采集和數據中臺的建設過程?”
咖哥回答:“它們有一定的關聯。”
埋點(event tracking)是指對用戶行為或事件進行捕獲、處理和發送的過程[8]。
[8] 此處說法引自趙小洛《人人都是產品經理》文章中的“數據埋點采集”。
數據分析師、產品經理和運營人員通過埋點對用戶行為的發生位置進行開發、布置;通過工具捕捉埋點事件的關聯數據,將數據記錄匯總后進行分析,從而優化產品、指導運營。埋點的質量將直接影響數據、產品、運營等部門的業務質量。
埋點是數據平臺和數據中臺建設過程中的重要環節,通過埋點獲取的數據則是數據分析師所需的資料。埋點源于業務需求,服務于業務需求,能對產品和服務進行全方位追蹤;而在埋點實施的過程中要用到數據采集、處理和發送等相關技術。
4 加強數據治理,提高數據質量
小雪不禁又問:“埋點重要,那么數據清洗是不是也很重要?”
咖哥說:“當然重要。數據分析師拿到的數據往往很‘臟’,很少能直接使用。不過要談數據清洗,先說數據治理。一般人解決問題的思路是見招拆招。但那只是被動地解決問題,我們應該從源頭解決問題,盡可能避免‘臟’數據出現。這就是數據治理的核心思想。”
數據分析師們總結了數據治理的原則,即約束輸入,規范結構,單一來源,規范輸出。
什么是約束輸入?例如,數據庫中城市名稱會出現“北京”“Beijing”“beijing”這類多值同義的情況。為解決該類問題,在設計系統時,應該通過下拉菜單約束用戶只能選擇其中的某個選項,從而避免讓用戶手動輸入文本。只有選項很難滿足需求時,才讓用戶手動輸入。手動輸入數據時,也要做好格式和邏輯的檢查,如必填字段、時間日期的格式、數據正確的范圍等。
規范結構的一個例子是在設計輸入表單和數據表時進行原子化,原子是不可分割的最小獨立單元。例如,地址數據最好細分成省、市、區、街道、門牌號等,分得越細越不容易出錯。此外,數據表中的字段要合乎邏輯、結構清晰,主鍵的選擇要精簡且合理。
數據的來源應單一,對應的英文為single source of truth(唯一的真實來源)。同一個數據字段,這個表里有,那個表里也有,此時就應該把這兩個表相互關聯,用外鍵約束該字段。否則,如果數據出現沖突,就不知道哪個表更可信,且溯源的過程十分復雜。
此外,企業內部也要進行數據指標的規范化。例如像“留存率”“月活數”這類的指標,如果各個部門的計算方法不同,向上級匯報的難度就會變大。因此,公司應該有專職人員負責制定規范,創建一個全公司通用的“數據字典”,統一各指標的意義及計算方法。
數據治理說起來雖然簡單,但執行起來并不容易。因為很多公司在成長期追求發展速度,顧不上數據治理。然而,當出現一大堆又“臟”又亂的數據之后,再進行數據治理就會很麻煩。