- 數據自助服務實踐指南:數據開放與洞察提效
- (美)桑迪普·烏坦坎達尼
- 877字
- 2022-05-20 19:18:45
2.1 路線圖
解釋數據集的需求是數據科學家探索的起點。以下是元數據目錄服務路線圖中的主要日常場景。
2.1.1 理解數據集
作為構建新模型、檢測新指標或進行即席分析的第一步,數據科學家需要理解數據的來源、使用方式、持久化方式等細節。通過理解數據細節,他們可以在開發洞察時做出明智的決策,篩選出正確的數據集做進一步分析。理解數據主要包括以下幾個方面:
- 數據在邏輯上代表什么?屬性的含義是什么?這些數據的事實來源是什么?
- 數據的所有者是誰?哪些人是主要數據用戶?
- 使用什么查詢引擎來訪問數據?數據集是否支持版本化?
- 數據存儲在哪里?數據副本存儲在哪里,并且數據格式是什么樣的?
- 這些數據的物理格式是什么,是否能被讀取?
- 這些數據的最后修改時間是什么時候?是否分層存儲?數據的歷史版本存儲在何地?是否能相信這些數據?
- 是否有相似的數據集(無論是整體數據集還是個別列,都有相似或相同的內容)?
元數據目錄成為這些問題的唯一事實來源。
在部署一個模型或儀表盤時,需要主動監控相關的數據集問題,因為它們會影響洞察的正確性和可用性。元數據目錄還存儲數據集的運行健康狀況,并用于對數據集模式的任何更改或已發現的任何其他團隊已經使用過的錯誤進行影響分析。這些信息可以幫助快速調試數據管道中的中斷環節,還可以對降低數據可用性而違反SLA的事件、在部署后出現數據質量問題以及其他操作問題進行告警。
2.1.2 分析數據集
有許多查詢引擎可以用來分析數據集。數據科學家可以根據數據集的屬性和查詢類型,使用合適的工具來分析數據集。單個數據集可以使用多個查詢引擎來交叉讀取,如Pig、Spark、Presto、Hive等。例如,一個Pig腳本從Hive讀取數據時,需要用Pig的方式來讀取Hive列類型的表。同樣,處理過程中可能需要將數據跨數據倉庫遷移,在這個過程中,目的數據存儲中的表使用目的表的數據類型。為了支持使用多個查詢處理框架,需要將規范數據類型映射到各自的數據存儲和查詢引擎類型。
2.1.3 知識擴展
當數據科學家在項目中使用不同的數據集時,會發現有關業務詞匯、數據質量等額外的細節,這些學習被稱為團隊知識。團隊知識目標是通過豐富數據集的元數據目錄細節,在數據用戶之間積極分享團隊知識。