官术网_书友最值得收藏!

1.2.1 了解“數據宕機的增加”

隨著對數據貨幣化的更多關注以及對提高數據準確性的不斷渴望,我們需要更好地了解可能導致數據宕機的一些因素。接下來,我們將進一步研究可能影響數據的變量。

遷移到云端

20年前,你的數據倉庫(轉換和存儲結構化數據的地方)可能位于辦公室的地下室內,而不是在亞馬遜云計算服務(Amazon Web Services,AWS)或微軟的Azure云計算服務上。現在,隨著數據驅動分析、跨職能數據團隊以及云計算的興起,諸如Amazon Redshift、Snowflake和Google BigQuery等云數據倉庫解決方案已經成為那些看好數據的公司越來越受歡迎的選擇。在許多方面,云都讓數據變得更易管理,更容易被廣泛的用戶所訪問,并且能以更快的速度進行處理。

在數據倉庫遷移到云端后不久,數據湖也遷移到了云端,這為數據團隊在管理數據資產方面提供了更大的靈活性。隨著公司及其數據遷移到云端,基于分析的決策(以及對高質量數據的需求)成為企業更加優先考慮的問題。

更多的數據源

現在的公司會使用數十到數百個內部與外部數據源來生成分析和機器學習模型。其中任何一個來源都可能以意想不到的方式在沒有事先通知的情況下發生變化,從而影響到公司用于決策的數據。

例如,工程團隊可能會更改公司的網站,從而修改了對營銷分析至關重要的數據集的輸出。結果,關鍵的營銷指標可能因此出錯,從而導致公司在廣告活動、銷售目標和其他收入驅動的重要項目上做出錯誤的決策。

日益復雜的數據管道

由于更先進的工具、更多的數據源以及高管層對數據的日益重視,數據管道正變得越來越復雜:有多個處理階段且各種數據資產之間存在重要的依賴關系。然而,如果不了解這些依賴關系,對一個數據集所做的任何更改都可能會產生意想不到的后果,從而影響相關數據資產的正確性。

簡而言之,數據管道中有很多工作要做。源數據的提取、接收、轉換、加載、存儲、處理和交付,以及其他可能的步驟,其中包含了在管道不同階段的許多API和集成。在每個節點上都有數據宕機的可能,就像在代碼合并時存在應用程序無法響應的可能一樣。此外,即使數據不在關鍵節點(例如,數據在數據倉庫之間遷移或手動輸入源系統時),也可能會出現問題。

更專業的數據團隊

隨著公司越來越依賴數據來推動智能決策,公司正在招聘越來越多的數據分析師、數據科學家和數據工程師構建并維護數據管道、分析和機器學習模型,以支持其服務、產品以及業務運營。

當數據分析師主要負責收集、清洗和查詢數據集,以幫助各職能利益相關方對業務產生豐富、可操作的見解時,數據工程師則負責確保支持這些分析的底層技術和系統是高性能、快速且可靠的。在工業界,數據科學家通常會收集、整理、擴充和理解非結構化數據以改進業務。數據分析師和數據科學家之間的區別可能有點模糊,而且頭銜和職責通常會根據公司的需求而有所不同。例如,在20世紀10年代末,Uber在重組組織架構后,將所有數據分析師的頭銜都改為數據科學家。

隨著數據越來越成為業務的基石,數據團隊也在不斷壯大。事實上,更大型的公司可能會支持額外的角色,包括數據管理員、數據治理負責人、運營分析師,甚至分析工程師(這是一個數據工程師和分析師的混合角色,在可能還沒有資源支持大型數據團隊的創業公司和中型公司中很受歡迎)。

由于這些不同的用戶都會接觸到數據,因此不可避免會出現溝通不暢或協調不足的情況,并且這還會導致這些復雜的系統在進行更改時崩潰。例如,一個團隊添加到數據表中的新字段可能會導致另一個團隊的管道故障,從而導致數據全部或部分丟失。在下游,這些壞數據可能導致數百萬美元的收入損失、客戶信任受損,甚至合規性風險。

去中心化的數據團隊

隨著數據成為業務運營的中心,公司中越來越多的職能團隊介入數據的管理和分析,以簡化并加快洞察收集的過程。因此,越來越多的數據團隊正在采用一種分布式、去中心化的模型,該模型模擬了整個行業從單體架構到微服務架構的遷移,這種遷移在20世紀10年代中期席卷了軟件工程界。

什么是去中心化的數據架構?不要把它與數據網格(https://oreil.ly/Vga7I)混淆,因為它是一種利用分布式的、面向域的設計的組織范式,去中心化的數據架構由一個集中式數據平臺團隊管理,而分析和數據科學團隊則分布在整個業務中。我們發現越來越多傾向于嵌入式數據分析模型的團隊正在依賴這種類型的架構。

例如,一家200人的公司可能支持一個由3名數據工程師和10名數據分析師組成的團隊,分析師分布在各個職能團隊中,以更好地支持業務需求。這些分析師將向運營團隊或集中式數據團隊報告,但他們擁有特定的數據集和報告功能。多個域將生成并利用數據,這將不可避免地導致多個團隊所使用的數據集會隨著時間的推移而重復、丟失或過時。正在讀這本書的你可能對使用不再相關、未知的數據集的經歷并不陌生!

主站蜘蛛池模板: 怀宁县| 安远县| 台安县| 金昌市| 鸡西市| 南城县| 卢龙县| 合肥市| 肇东市| 禄丰县| 西乌珠穆沁旗| 高州市| 盘锦市| 万盛区| 新竹县| 维西| 睢宁县| 涪陵区| 扶风县| 灵武市| 沁源县| 炎陵县| 诸暨市| 长顺县| 安新县| 礼泉县| 承德市| 昭通市| 青浦区| 漯河市| 离岛区| 德州市| 固原市| 门头沟区| 丹巴县| 杭锦后旗| 清涧县| 崇礼县| 高平市| 德惠市| 青田县|