- 數據自助服務實踐指南:數據開放與洞察提效
- (美)桑迪普·烏坦坎達尼
- 760字
- 2022-05-20 19:18:51
5.1 路線圖
本節討論數據科學家在數據遷移中的不同場景。
5.1.1 跨數據源聚合數據
傳統上,來自事務型數據庫的數據被聚合到數據倉庫中用于數據分析。今天,數據源的種類顯著增加,有結構化數據、半結構化數據和非結構化數據,包括事務型關系數據庫、行為數據、地理空間數據、服務器日志、物聯網傳感器數據等。對數據用戶來說,從這些數據源聚合數據難度較大。
更復雜的是,隨著應用程序設計的微服務范式(https://oreil.ly/2kHMq)的出現,數據源變得越來越孤立。在微服務范式中,開發人員可以選擇最適合其微服務的不同底層數據存儲和數據模型。在現實世界中,一個典型的數據用戶需要應對不同的數據孤島,并且通常需要跨團隊進行協調,管理產品交易數據、行為點擊流數據、營銷活動、賬單活動、客戶支持票據、銷售記錄等。在這種情況下,數據遷移服務的作用是在數據湖中自動聚合數據。
5.1.2 將原始數據遷移到專門的查詢引擎
越來越多的查詢處理引擎針對不同類型的查詢和數據工作負載進行了優化。例如,對于時間序列數據集的切片分析,數據被復制到專門的分析解決方案,如Druid(https://oreil.ly/hmCP4)和Pinot(https://oreil.ly/_hu7N)。簡化數據遷移可以為分析作業選擇更合適的分析工具。在基于云的架構中,查詢引擎越來越多地直接運行在數據湖上,減少了遷移數據的需求。
5.1.3 將處理過的數據遷移到服務存儲
考慮這樣一個場景,數據被處理后存儲為鍵-值對,需要由應用程序向數百萬個終端用戶提供服務。為了確保足夠的性能和可擴展性,需要根據數據模型和一致性需求選擇合適的NoSQL存儲作為服務存儲。
5.1.4 跨數據源進行探索性分析
在模型構建的初始階段,數據用戶需要探索大量的數據屬性。這些屬性在數據湖中可能并不都是可用的。探索階段不需要完整的表,而是需要快速原型設計的數據樣本。鑒于原型設計工作的迭代性,非常有必要將數據遷移自動化為頁面點擊可實現的功能。此場景是決定需要定期在數據湖中聚合哪些數據集的準備步驟。
- 在你身邊為你設計Ⅲ:騰訊服務設計思維與實戰
- Microsoft SQL Server企業級平臺管理實踐
- Visual Studio 2015 Cookbook(Second Edition)
- MongoDB管理與開發精要
- 算法與數據中臺:基于Google、Facebook與微博實踐
- 數據庫應用基礎教程(Visual FoxPro 9.0)
- 深入淺出MySQL:數據庫開發、優化與管理維護(第2版)
- Lego Mindstorms EV3 Essentials
- 數據庫設計與應用(SQL Server 2014)(第二版)
- 編寫有效用例
- SAS金融數據挖掘與建模:系統方法與案例解析
- 改進的群智能算法及其應用
- Access 2016數據庫應用基礎
- MySQL性能調優與架構設計
- 數據庫技術與應用:SQL Server 2008