官术网_书友最值得收藏!

<strike id="bproe"><button id="bproe"></button></strike>

<fieldset id="bproe"><table id="bproe"></table></fieldset>

書名：云原生數(shù)據(jù)中臺：架構、方法論與實踐
作者名：彭鋒宋文欣孫浩峰
本章字數(shù)： 1517字
更新時間： 2021-04-30 12:38:48

4.2　數(shù)據(jù)管理及應用階段

這個階段的企業(yè)一般會開始數(shù)據(jù)湖和數(shù)據(jù)倉庫的建設，并涉及數(shù)據(jù)治理與管理、數(shù)據(jù)安全與權限管理等。

4.2.1　數(shù)據(jù)湖/數(shù)據(jù)倉庫建設

企業(yè)開始將數(shù)據(jù)簡單地導入Hadoop，然后運行一些查詢。在這個時候，一般會開始數(shù)據(jù)湖和數(shù)據(jù)倉庫的建設，也會逐漸重視元數(shù)據(jù)的管理、數(shù)據(jù)建模的管理。這時一般會有比較懂業(yè)務的人員參與到數(shù)據(jù)倉庫的建設中，以確保所有業(yè)務相關的數(shù)據(jù)能夠完整地導入數(shù)據(jù)倉庫相應的模型中，如果有缺失的信息，可能還要進行新的數(shù)據(jù)埋點或者業(yè)務系統(tǒng)改造。

數(shù)據(jù)湖和數(shù)據(jù)倉庫建設是數(shù)據(jù)中臺建設的核心工作之一，負責整體的業(yè)務數(shù)據(jù)建模并將原始數(shù)據(jù)轉換成數(shù)據(jù)應用可以直接使用的數(shù)據(jù)。圖3-1所示的數(shù)據(jù)倉庫架構其實在20世紀90年代就已經(jīng)很成熟，數(shù)據(jù)中臺建設在這一階段主要提出了類似于OneID和OneModel這樣針對數(shù)據(jù)治理和建模的要求。

這一階段的主要工作包括：

·頂層業(yè)務架構的梳理，業(yè)務域和數(shù)據(jù)域的劃分；

·數(shù)據(jù)規(guī)范的確定；

·業(yè)務流程的梳理及面向業(yè)務流程的數(shù)據(jù)建模；

·數(shù)據(jù)導入、數(shù)據(jù)清洗、數(shù)據(jù)治理、數(shù)據(jù)轉換；

·主題的分析及實現(xiàn)，數(shù)據(jù)集市的建立。

這些工作內容將在第10章中詳細介紹。

4.2.2　數(shù)據(jù)管理

一個企業(yè)級的大數(shù)據(jù)系統(tǒng)不僅要處理與標準操作系統(tǒng)類似的硬件和軟件故障問題，還要處理與數(shù)據(jù)相關的問題，這就是數(shù)據(jù)管理需要做的工作。一個真正數(shù)據(jù)驅動的IT系統(tǒng)需要確保數(shù)據(jù)完整、正確、準時，并為數(shù)據(jù)進化做好準備。那么我們需要完成以下工作（見圖4-3）。

·我們需要確保在數(shù)據(jù)流水線的任何步驟中數(shù)據(jù)都不會丟失，因此需要監(jiān)控每個程序正在處理的數(shù)據(jù)量，以便盡快檢測到所有異常。

·我們需要有對數(shù)據(jù)質量進行測試，以便在數(shù)據(jù)中出現(xiàn)任何意外值時，接收到告警信息。

·我們需要監(jiān)控應用程序的運行時間，以便每個數(shù)據(jù)源都有一個預定義的ETA（預期完成時間），并且會對延遲的數(shù)據(jù)源發(fā)出警報。

·我們需要管理數(shù)據(jù)血緣關系，以便了解每個數(shù)據(jù)源的生成方式，在出現(xiàn)問題時，知道哪些數(shù)據(jù)和結果會受到影響。

·系統(tǒng)應自動處理合法的元數(shù)據(jù)變更，并應立即發(fā)現(xiàn)和報告非法元數(shù)據(jù)變更。

·我們需要對應用程序進行版本控制并將其與數(shù)據(jù)相關聯(lián)，以便在程序更改時，知道如何對相關數(shù)據(jù)進行相應的更改。

圖4-3　數(shù)據(jù)管理

此外，在此階段，我們可能需要為數(shù)據(jù)科學家提供單獨的測試環(huán)境來測試其代碼，并提供各種便捷和安全的工具，讓他們能快速驗證自己的想法，并能方便地發(fā)布到生產(chǎn)環(huán)境。

4.2.3　數(shù)據(jù)安全

在實現(xiàn)面向客戶產(chǎn)品的數(shù)據(jù)驅動后，企業(yè)管理層依靠實時的業(yè)務數(shù)據(jù)分析報告來做出重大決策。數(shù)據(jù)資產(chǎn)安全將變得非常重要，我們必須確定只有合適的人員才能訪問數(shù)據(jù)，并且數(shù)據(jù)系統(tǒng)應該擁有完善的身份驗證和授權方案。

一個簡單的例子是Hadoop的Kerberos身份驗證。如果沒有使用Kerberos集成運行Hadoop，那么擁有root訪問權限的任何人都可以模擬Hadoop集群的root用戶并訪問所有數(shù)據(jù)。其他工具如Kafka和Spark也需要Kerberos進行身份驗證。由于使用Kerberos設置這些系統(tǒng)非常復雜（通常只有商業(yè)版本提供支持），我們看到的很多系統(tǒng)都選擇忽略Kerberos集成。

除了身份驗證問題，以下是企業(yè)在此時還需要處理的一些問題（見圖4-4）。

·數(shù)據(jù)審計：系統(tǒng)必須審計系統(tǒng)中的所有操作，例如誰訪問了系統(tǒng)中的什么內容。

·多租戶：系統(tǒng)必須支持多個用戶和組共享同一個集群，具有資源隔離和訪問控制功能，能夠安全地處理和分享他們的數(shù)據(jù)。

·端到端安全：系統(tǒng)中的所有工具都必須實施正確的安全措施，例如所有Hadoop相關組件的Kerberos集成、所有網(wǎng)絡流量的HTTPS/SSL。

·單點登錄：系統(tǒng)中的所有用戶在所有工具中都應具有單一身份，這對于實施安全策略非常重要。

圖4-4　數(shù)據(jù)安全階段

由于大多數(shù)開源工具沒有在其免費版本中提供這些功能，因此許多項目在安全問題上采用“撞大運”的方法并不奇怪。安全的價值對于不同的項目來說并不相同，但我們必須意識到其中潛在的問題并采取適當?shù)膽獙Ψ椒ā?/p>

主站蜘蛛池模板：益阳市| 卓尼县| 青龙| 罗田县| 汕尾市| 金昌市| 积石山| 平乡县| 鄂托克旗| 肇州县| 大丰市| 永福县| 黄浦区| 云安县| 泾川县| 隆林| 鹤庆县| 凤山市| 会宁县| 阳信县| 黄陵县| 政和县| 楚雄市| 临漳县| 潢川县| 从化市| 田林县| 砚山县| 嵩明县| 大安市| 灵川县| 资源县| 龙川县| 临朐县| 佛山市| 武平县| 克山县| 福安市| 乌拉特后旗| 三台县| 东平县|

<strike id="lbil3"><button id="lbil3"><thead id="lbil3"></thead></button></strike>

<label id="lbil3"></label>