官术网_书友最值得收藏!

6.2 數據工具

在實踐中,一個很重要的思路是將方法論映射到我們所使用的工具中,然后通過這些工具來規范我們的管理方法,而不是通過說教或行政規定來確保這些方法論的執行。目前這樣的工具是比較欠缺的,第4章介紹的DataOps就是使用工具來體現數據中臺建設方法論的一個理論指導。前面的章節已經介紹過數據中臺中的各種數據應用和工具,這里簡單匯總如下:

·數據發現

·數據應用資產管理

·自助數據開發探索平臺

·自助數據應用運維平臺

·數據可視化

·數據共享

·數據即服務

·模型即服務

·多用戶、多租戶管理

·自動異常檢測

·行為審計

實際場景:數據科學家的自助工具

一般來說,數據科學家的主要職責是編寫機器學習程序并評估所生成模型的效果。他們的主要工作是理解業務數據與機器學習算法和模型之間的關系,使用最合適的模型和算法生成最精確的模型參數。在運行這些算法的時候,他們需要與底層的執行框架打交道,而且在模型確定后,還需要將其發布到生產系統并運維。這個時候如果底層系統出了問題,仍需要他們來解決。但是由于數據科學家一般對底層系統并不太熟悉,這會占用他們相當多的工作時間,降低他們調試算法和發布算法的效率,進而影響企業內部共享算法模型的效率。

為了解決這個問題,Twitter內部給數據科學家提供調試數據程序性能的工具,在程序出問題或者效率低下時,他們可以使用可視化的方式直接找到出問題的地方,進而快速解決問題。然后,通過內部云平臺和PaaS系統,數據科學家可以快速通過可視化界面自助發布模型應用,而PaaS平臺能夠解決容錯、負載均衡等一系列繁雜的配置工作,同時提供方便的運維工具,從而大大降低算法模型在公司內部共享的難度。如果沒有這些工具,數據科學家就不時需要數據平臺團隊的支持,這就會大大降低研發的效率,提高數據能力共享的門檻。

主站蜘蛛池模板: 牙克石市| 龙门县| 永兴县| 扎赉特旗| 曲麻莱县| 遂平县| 黎平县| 镇沅| 民县| 理塘县| 沭阳县| 宁明县| 南岸区| 宁明县| 株洲县| 河源市| 江永县| 上栗县| 阳新县| 惠来县| 中牟县| 双辽市| 鄂尔多斯市| 北宁市| 肇州县| 大化| 仁怀市| 东至县| 阳高县| 呈贡县| 禹州市| 庄河市| 蕉岭县| 赤水市| 岳西县| 尼木县| 怀安县| 龙岩市| 曲麻莱县| 墨竹工卡县| 长汀县|