- 云原生數據中臺:架構、方法論與實踐
- 彭鋒 宋文欣 孫浩峰
- 725字
- 2021-04-30 12:38:52
6.2 數據工具
在實踐中,一個很重要的思路是將方法論映射到我們所使用的工具中,然后通過這些工具來規范我們的管理方法,而不是通過說教或行政規定來確保這些方法論的執行。目前這樣的工具是比較欠缺的,第4章介紹的DataOps就是使用工具來體現數據中臺建設方法論的一個理論指導。前面的章節已經介紹過數據中臺中的各種數據應用和工具,這里簡單匯總如下:
·數據發現
·數據應用資產管理
·自助數據開發探索平臺
·自助數據應用運維平臺
·數據可視化
·數據共享
·數據即服務
·模型即服務
·多用戶、多租戶管理
·自動異常檢測
·行為審計
實際場景:數據科學家的自助工具
一般來說,數據科學家的主要職責是編寫機器學習程序并評估所生成模型的效果。他們的主要工作是理解業務數據與機器學習算法和模型之間的關系,使用最合適的模型和算法生成最精確的模型參數。在運行這些算法的時候,他們需要與底層的執行框架打交道,而且在模型確定后,還需要將其發布到生產系統并運維。這個時候如果底層系統出了問題,仍需要他們來解決。但是由于數據科學家一般對底層系統并不太熟悉,這會占用他們相當多的工作時間,降低他們調試算法和發布算法的效率,進而影響企業內部共享算法模型的效率。
為了解決這個問題,Twitter內部給數據科學家提供調試數據程序性能的工具,在程序出問題或者效率低下時,他們可以使用可視化的方式直接找到出問題的地方,進而快速解決問題。然后,通過內部云平臺和PaaS系統,數據科學家可以快速通過可視化界面自助發布模型應用,而PaaS平臺能夠解決容錯、負載均衡等一系列繁雜的配置工作,同時提供方便的運維工具,從而大大降低算法模型在公司內部共享的難度。如果沒有這些工具,數據科學家就不時需要數據平臺團隊的支持,這就會大大降低研發的效率,提高數據能力共享的門檻。
推薦閱讀
- 我們都是數據控:用大數據改變商業、生活和思維方式
- 數據產品經理高效學習手冊:產品設計、技術常識與機器學習
- Visual Studio 2015 Cookbook(Second Edition)
- Oracle RAC 11g實戰指南
- 商業分析思維與實踐:用數據分析解決商業問題
- Hadoop大數據實戰權威指南(第2版)
- 達夢數據庫性能優化
- 大數據架構和算法實現之路:電商系統的技術實戰
- Oracle 12c云數據庫備份與恢復技術
- Python金融數據分析(原書第2版)
- Proxmox VE超融合集群實踐真傳
- 深入淺出 Hyperscan:高性能正則表達式算法原理與設計
- 云原生數據中臺:架構、方法論與實踐
- 智慧的云計算
- Solaris操作系統原理實驗教程