官术网_书友最值得收藏!

4.2 數(shù)據(jù)管理及應用階段

這個階段的企業(yè)一般會開始數(shù)據(jù)湖和數(shù)據(jù)倉庫的建設,并涉及數(shù)據(jù)治理與管理、數(shù)據(jù)安全與權限管理等。

4.2.1 數(shù)據(jù)湖/數(shù)據(jù)倉庫建設

企業(yè)開始將數(shù)據(jù)簡單地導入Hadoop,然后運行一些查詢。在這個時候,一般會開始數(shù)據(jù)湖和數(shù)據(jù)倉庫的建設,也會逐漸重視元數(shù)據(jù)的管理、數(shù)據(jù)建模的管理。這時一般會有比較懂業(yè)務的人員參與到數(shù)據(jù)倉庫的建設中,以確保所有業(yè)務相關的數(shù)據(jù)能夠完整地導入數(shù)據(jù)倉庫相應的模型中,如果有缺失的信息,可能還要進行新的數(shù)據(jù)埋點或者業(yè)務系統(tǒng)改造。

數(shù)據(jù)湖和數(shù)據(jù)倉庫建設是數(shù)據(jù)中臺建設的核心工作之一,負責整體的業(yè)務數(shù)據(jù)建模并將原始數(shù)據(jù)轉換成數(shù)據(jù)應用可以直接使用的數(shù)據(jù)。圖3-1所示的數(shù)據(jù)倉庫架構其實在20世紀90年代就已經(jīng)很成熟,數(shù)據(jù)中臺建設在這一階段主要提出了類似于OneID和OneModel這樣針對數(shù)據(jù)治理和建模的要求。

這一階段的主要工作包括:

·頂層業(yè)務架構的梳理,業(yè)務域和數(shù)據(jù)域的劃分;

·數(shù)據(jù)規(guī)范的確定;

·業(yè)務流程的梳理及面向業(yè)務流程的數(shù)據(jù)建模;

·數(shù)據(jù)導入、數(shù)據(jù)清洗、數(shù)據(jù)治理、數(shù)據(jù)轉換;

·主題的分析及實現(xiàn),數(shù)據(jù)集市的建立。

這些工作內容將在第10章中詳細介紹。

4.2.2 數(shù)據(jù)管理

一個企業(yè)級的大數(shù)據(jù)系統(tǒng)不僅要處理與標準操作系統(tǒng)類似的硬件和軟件故障問題,還要處理與數(shù)據(jù)相關的問題,這就是數(shù)據(jù)管理需要做的工作。一個真正數(shù)據(jù)驅動的IT系統(tǒng)需要確保數(shù)據(jù)完整、正確、準時,并為數(shù)據(jù)進化做好準備。那么我們需要完成以下工作(見圖4-3)。

·我們需要確保在數(shù)據(jù)流水線的任何步驟中數(shù)據(jù)都不會丟失,因此需要監(jiān)控每個程序正在處理的數(shù)據(jù)量,以便盡快檢測到所有異常。

·我們需要有對數(shù)據(jù)質量進行測試,以便在數(shù)據(jù)中出現(xiàn)任何意外值時,接收到告警信息。

·我們需要監(jiān)控應用程序的運行時間,以便每個數(shù)據(jù)源都有一個預定義的ETA(預期完成時間),并且會對延遲的數(shù)據(jù)源發(fā)出警報。

·我們需要管理數(shù)據(jù)血緣關系,以便了解每個數(shù)據(jù)源的生成方式,在出現(xiàn)問題時,知道哪些數(shù)據(jù)和結果會受到影響。

·系統(tǒng)應自動處理合法的元數(shù)據(jù)變更,并應立即發(fā)現(xiàn)和報告非法元數(shù)據(jù)變更。

·我們需要對應用程序進行版本控制并將其與數(shù)據(jù)相關聯(lián),以便在程序更改時,知道如何對相關數(shù)據(jù)進行相應的更改。

圖4-3 數(shù)據(jù)管理

此外,在此階段,我們可能需要為數(shù)據(jù)科學家提供單獨的測試環(huán)境來測試其代碼,并提供各種便捷和安全的工具,讓他們能快速驗證自己的想法,并能方便地發(fā)布到生產(chǎn)環(huán)境。

4.2.3 數(shù)據(jù)安全

在實現(xiàn)面向客戶產(chǎn)品的數(shù)據(jù)驅動后,企業(yè)管理層依靠實時的業(yè)務數(shù)據(jù)分析報告來做出重大決策。數(shù)據(jù)資產(chǎn)安全將變得非常重要,我們必須確定只有合適的人員才能訪問數(shù)據(jù),并且數(shù)據(jù)系統(tǒng)應該擁有完善的身份驗證和授權方案。

一個簡單的例子是Hadoop的Kerberos身份驗證。如果沒有使用Kerberos集成運行Hadoop,那么擁有root訪問權限的任何人都可以模擬Hadoop集群的root用戶并訪問所有數(shù)據(jù)。其他工具如Kafka和Spark也需要Kerberos進行身份驗證。由于使用Kerberos設置這些系統(tǒng)非常復雜(通常只有商業(yè)版本提供支持),我們看到的很多系統(tǒng)都選擇忽略Kerberos集成。

除了身份驗證問題,以下是企業(yè)在此時還需要處理的一些問題(見圖4-4)。

·數(shù)據(jù)審計:系統(tǒng)必須審計系統(tǒng)中的所有操作,例如誰訪問了系統(tǒng)中的什么內容。

·多租戶:系統(tǒng)必須支持多個用戶和組共享同一個集群,具有資源隔離和訪問控制功能,能夠安全地處理和分享他們的數(shù)據(jù)。

·端到端安全:系統(tǒng)中的所有工具都必須實施正確的安全措施,例如所有Hadoop相關組件的Kerberos集成、所有網(wǎng)絡流量的HTTPS/SSL。

·單點登錄:系統(tǒng)中的所有用戶在所有工具中都應具有單一身份,這對于實施安全策略非常重要。

圖4-4 數(shù)據(jù)安全階段

由于大多數(shù)開源工具沒有在其免費版本中提供這些功能,因此許多項目在安全問題上采用“撞大運”的方法并不奇怪。安全的價值對于不同的項目來說并不相同,但我們必須意識到其中潛在的問題并采取適當?shù)膽獙Ψ椒ā?/p>

主站蜘蛛池模板: 益阳市| 卓尼县| 青龙| 罗田县| 汕尾市| 金昌市| 积石山| 平乡县| 鄂托克旗| 肇州县| 大丰市| 永福县| 黄浦区| 云安县| 泾川县| 隆林| 鹤庆县| 凤山市| 会宁县| 阳信县| 黄陵县| 政和县| 楚雄市| 临漳县| 潢川县| 从化市| 田林县| 砚山县| 嵩明县| 大安市| 灵川县| 资源县| 龙川县| 临朐县| 佛山市| 武平县| 克山县| 福安市| 乌拉特后旗| 三台县| 东平县|