- 主數(shù)據(jù)驅(qū)動的數(shù)據(jù)治理:原理、技術(shù)與實踐
- 王兆君 曹朝輝 王鉞
- 9479字
- 2019-12-09 14:53:44
4.1 主數(shù)據(jù)項目實施的主要風險
主數(shù)據(jù)項目實施的風險包括組織管理風險、數(shù)據(jù)質(zhì)量風險、數(shù)據(jù)轉(zhuǎn)換風險、系統(tǒng)集成風險等方面。項目建設(shè)初期,組織管理風險會較為突出,這些風險包括缺少風險管理部門、缺乏風險管理體系、缺少持久穩(wěn)定的運行機制、缺乏必要的規(guī)范、缺少風險管控機制、缺乏事后的總結(jié)分析、缺少對項目的考核、不重視事前控制等內(nèi)容。在項目建設(shè)過程中,數(shù)據(jù)質(zhì)量風險、數(shù)據(jù)轉(zhuǎn)換風險、系統(tǒng)集成風險會較為突出,其中數(shù)據(jù)質(zhì)量風險會涉及缺失的或不完整的數(shù)據(jù)、不準確的數(shù)據(jù)、不一致的數(shù)據(jù)、重復的數(shù)據(jù)、無效記錄等。在數(shù)據(jù)轉(zhuǎn)換過程中,由于對數(shù)據(jù)關(guān)系沒有做到充分的準備,因此容易造成數(shù)據(jù)部分丟失或者整體丟失的現(xiàn)象。數(shù)據(jù)轉(zhuǎn)換過程如果沒有對某些數(shù)據(jù)進行完整性校驗,則容易造成數(shù)據(jù)不完整的事故。數(shù)據(jù)轉(zhuǎn)換過程中,也會帶來數(shù)據(jù)的不一致性問題。在系統(tǒng)集成時也會出現(xiàn)系統(tǒng)多、關(guān)系復雜、系統(tǒng)封閉、不開放、開發(fā)平臺不同、數(shù)據(jù)結(jié)構(gòu)有差異等多種現(xiàn)象。如何規(guī)避這些風險,是主數(shù)據(jù)項目實施過程中的主要任務(wù)。
4.1.1 組織風險
在數(shù)據(jù)治理過程中,首先應(yīng)建立數(shù)據(jù)治理組織。許多企業(yè)在數(shù)據(jù)治理初期,對數(shù)據(jù)治理組織沒有充分的重視,隨著系統(tǒng)的建設(shè),管理問題不斷出現(xiàn),此時才意識到數(shù)據(jù)治理組織的重要性。數(shù)據(jù)治理的組織應(yīng)在數(shù)據(jù)治理項目初期就得到高層領(lǐng)導的高度重視。
在數(shù)據(jù)治理過程中對組織風險重視程度不足的主要表現(xiàn)如下。
? 從事數(shù)據(jù)治理的管理組織中普遍缺少風險管理部門。
? 在實際的項目管理中,缺乏系統(tǒng)性的風險管理體系的建立,缺少較為持久穩(wěn)定的運行機制。
? 數(shù)據(jù)治理企業(yè)缺乏必要的規(guī)范,導致工作失誤與重復工作。
? 對于數(shù)據(jù)治理項目,參與各方都缺少全面的風險評估和控制機制。
? 對于已經(jīng)出現(xiàn)的大小風險事件,缺乏事后的總結(jié)分析。
? 對項目管理機構(gòu)的考核,缺少“風險管理”內(nèi)容。
? 領(lǐng)導層對風險事件的處理,只重視事后處置,而不重視事前控制。
缺少風險控制,會導致如下問題。
? 數(shù)據(jù)治理項目大多不能按期完成,或項目實施過程中總會出現(xiàn)“搶工”的情況。
? 項目的成本處于失控狀態(tài),計劃成本的預控性得不到發(fā)揮。
? 項目實施過程中經(jīng)常出現(xiàn)“意外”的質(zhì)量事件。雖然有些企業(yè)總結(jié)了以往的質(zhì)量缺陷,制定過預控措施,但由于缺乏系統(tǒng)性,依然會導致質(zhì)量控制目標難于實現(xiàn)、成本上升、進度滯后。
? 數(shù)據(jù)治理項目管理團隊常常處于一種焦慮狀態(tài),缺乏信心,總有失敗感,使項目團隊的凝聚力下降,管理人員注意力難于集中,管理水平持續(xù)下降。
? 管理人員的管理能力并未與項目經(jīng)驗同步提升,將會導致管理人員流動性加大,項目管理團隊不穩(wěn)定,企業(yè)的項目管理時間、進度、成本受到?jīng)_擊,嚴重者將影響企業(yè)的生存與發(fā)展。
為了避免由于組織不健全、領(lǐng)導不重視引起的項目風險,首先需建立健全項目管理組織,強有力的項目管理組織是項目成功的基礎(chǔ)。主數(shù)據(jù)會一直伴隨著企業(yè)的經(jīng)營,大多數(shù)情況下是幾十年甚至上百年不變,所以在定位上,主數(shù)據(jù)項目所涉及的主數(shù)據(jù)系統(tǒng)是企業(yè)級的核心基礎(chǔ)信息系統(tǒng),這也就意味著需要納入信息管理的系統(tǒng)比較多,會橫跨許多部門或分子公司,而大企業(yè)的各部門或分子公司往往有著自己成型的業(yè)務(wù)習慣。在推行主數(shù)據(jù)建設(shè)時,系統(tǒng)的需求調(diào)研、部門的協(xié)調(diào)溝通、數(shù)據(jù)清洗的煩瑣步驟等工作量巨大,這是主數(shù)據(jù)項目實施過程中的難點之一。因此,需要站在集團層面統(tǒng)一實施、統(tǒng)一管理、統(tǒng)一協(xié)調(diào),建立集團層面項目管理組織(PMO)。
其次,與其他管理信息系統(tǒng)一樣,高層領(lǐng)導重視、參與、支持是主數(shù)據(jù)項目成功的關(guān)鍵。作為一個自上而下的信息化工程,主數(shù)據(jù)項目涉及的業(yè)務(wù)范圍廣、系統(tǒng)影響大、協(xié)調(diào)事項多。在各部門之間的數(shù)據(jù)應(yīng)用環(huán)節(jié),過往的紙質(zhì)文件線下傳遞、電話溝通、“使用習慣”“不成文規(guī)定”等,都將是數(shù)據(jù)標準化建設(shè)時會遇到的“關(guān)卡”,能有一位有話語權(quán)的領(lǐng)導來強力支持和推行主數(shù)據(jù)項目建設(shè)將是成功的關(guān)鍵。因此,項目建設(shè)需要公司高層領(lǐng)導高度重視,并列入工作計劃進行項目推動與管理,形成專門的考核評價體系,對項目團隊人員進行考核,使團隊成員重視項目建設(shè),避免項目實施失敗風險。
4.1.2 數(shù)據(jù)風險
有數(shù)據(jù)統(tǒng)計表明,雀巢公司在200個國家出售超過十萬種產(chǎn)品,有55萬家供應(yīng)商,但由于數(shù)據(jù)庫內(nèi)容混亂,結(jié)果并未形成強大的采購議價優(yōu)勢。在一次檢查中發(fā)現(xiàn),雀巢公司的900萬條供應(yīng)商、客戶和原材料記錄中有差不多一半是過期或重復的,剩下的有三分之一不準確或有缺失。供應(yīng)商名稱有的簡寫有的不簡寫,產(chǎn)生了重復記錄。在這一案例中就包含了封閉、斷裂、缺失等數(shù)據(jù)問題。
封閉數(shù)據(jù):數(shù)據(jù)增值的關(guān)鍵在于整合,但自由整合的前提是數(shù)據(jù)的開放,不開放的數(shù)據(jù)就是封閉數(shù)據(jù)。以新浪、搜狐、網(wǎng)易、騰訊四大微博的數(shù)據(jù)平臺為例,四家公司的數(shù)據(jù)各自為政,相互獨立,關(guān)于微博用戶行為分析都是基于對自己現(xiàn)有用戶的分析,這種封閉的數(shù)據(jù)環(huán)境下,很多層面的具體分析都將受到很大的局限,例如:如何分析重疊用戶?什么特征的人群會只在一個平臺上開設(shè)賬號?什么特征的人會在不同平臺上都開設(shè)賬號?在不同平臺上使用風格是否相同?在不同賬號下活躍度是否相同?影響因素是什么?這是在封閉的數(shù)據(jù)環(huán)境下無法進行分析的。
斷裂數(shù)據(jù):斷裂數(shù)據(jù)則使數(shù)據(jù)缺乏結(jié)構(gòu)化,造成表面上全面,實際上都是片段式的數(shù)據(jù)。以淘寶為例,當淘寶想研究“究竟是什么人在淘寶上開店”的時候,并不像想象中的那么容易。在淘寶公司的實時地圖上,可以利用GPS系統(tǒng)清晰地知道每一秒全國各地正在發(fā)生的交易,但是實時地圖卻不知道這些人的族群特征。同樣的問題出現(xiàn)在騰訊游戲部門的用戶研究中,研究人員并不能從實時的監(jiān)測中知道是誰在玩游戲,他們有什么愛好、是什么性格、為什么喜歡一款游戲,研究人員知道的只是一個ID
賬號,這就是斷裂數(shù)據(jù)帶來的問題:表面上全面,實際上都是片段式的數(shù)據(jù)。全數(shù)據(jù)確實可以在一定程度上掌握人的行為,但是無法知道是什么樣的人的行為。
缺失數(shù)據(jù):只有有價值的數(shù)據(jù)才稱得上信息,然而從數(shù)據(jù)中獲得盡量多的信息并非易事。隨著數(shù)據(jù)量的擴大,缺失數(shù)據(jù)產(chǎn)生的比例也會相應(yīng)擴大,尤其當一個樣本中出現(xiàn)多項缺失時,會顯著加大處理的難度。通過構(gòu)造模型可以部分克服數(shù)據(jù)的缺失,使之更加準確,但卻面臨計算的時間復雜度方面的問題。對所有大數(shù)據(jù)分析來講,適用于具體問題的有效數(shù)據(jù)量都不夠大,同時數(shù)據(jù)都是缺失多于正常。在數(shù)據(jù)收集和整合過程中采用新技術(shù)手段避免這一問題,將使這一問題在分析上帶來的風險變得更突出,例如,BI公司為了避免數(shù)據(jù)的不完整性,采用快速修復技術(shù)整合分散數(shù)據(jù),這將失去最原始的真實數(shù)據(jù),使得研究者很容易舍棄與假設(shè)不符合的數(shù)據(jù),也使驗證結(jié)論變得不再可能。
1. 數(shù)據(jù)質(zhì)量風險
數(shù)據(jù)質(zhì)量風險主要發(fā)生在主數(shù)據(jù)項目建設(shè)初期,由于數(shù)據(jù)來源眾多,種類繁雜,會存在不少的數(shù)據(jù)質(zhì)量問題。由于原始的數(shù)據(jù)是集成人員從被集成信息系統(tǒng)中獲得的,這些源數(shù)據(jù)可能存在幾種情況:一是有些列的數(shù)據(jù)對數(shù)據(jù)集成是無意義的;二是對那些有意義的數(shù)據(jù),可能又存在缺失的或不完整的數(shù)據(jù)、不準確的數(shù)據(jù)、不一致的數(shù)據(jù)、重復的、無效的記錄等問題。這些有質(zhì)量問題的數(shù)據(jù)會影響后續(xù)的分析結(jié)果。針對數(shù)據(jù)質(zhì)量問題,集成人員要首先進行評價。
數(shù)據(jù)質(zhì)量的主要評價指標如下。
? 準確性:數(shù)據(jù)值與假定正確值的一致程度。
? 完整性:需要值的屬性中無值缺失的程度。
? 一致性:數(shù)據(jù)對一組約束的滿足程度。
? 唯一性:數(shù)據(jù)記錄(及碼值)的唯一性。
? 有效性:維護的數(shù)據(jù)足夠嚴格,以滿足分類準則的接受要求。
凡是有助于提高數(shù)據(jù)質(zhì)量的過程都是數(shù)據(jù)清洗過程。數(shù)據(jù)清洗是面向數(shù)據(jù)和計算機集成中的重要一環(huán)。檢查、控制和分析數(shù)據(jù)的質(zhì)量,在數(shù)據(jù)質(zhì)量問題上發(fā)現(xiàn)集成線索,清洗有質(zhì)量問題的數(shù)據(jù),為后續(xù)的數(shù)據(jù)分析服務(wù),是面向數(shù)據(jù)的計算機集成的技術(shù)重點。數(shù)據(jù)清洗工作主要包括確認輸入數(shù)據(jù)、修改錯誤值、替換空值、保證數(shù)據(jù)值落入定義域、消除冗余數(shù)據(jù)、解決數(shù)據(jù)中的沖突等。
? 解決不完整數(shù)據(jù)(即值缺失)的方法:大多數(shù)情況下,缺失的值必須手工填入。某些缺失值可以從本數(shù)據(jù)源或其他數(shù)據(jù)源推導出來。
? 錯誤值的檢測及解決方法:用統(tǒng)計分析的方法可識別可能的錯誤值或異常值,如偏差分析、識別不遵守分布或回歸方程的值,可使用簡單規(guī)則庫(常識性規(guī)則、業(yè)務(wù)特定規(guī)則等)檢查數(shù)據(jù)值,可使用不同屬性間的約束或使用外部數(shù)據(jù)。
? 不一致性的檢測及解決辦法:可定義完整性約束用于檢測不一致性,或通過分析數(shù)據(jù)發(fā)現(xiàn)聯(lián)系。
? 重復的數(shù)據(jù)解決辦法:可通過在數(shù)據(jù)庫中建立主鍵,定義數(shù)據(jù)記錄(及碼值)的唯一性。
2. 數(shù)據(jù)轉(zhuǎn)換風險
通過數(shù)據(jù)清洗以后的數(shù)據(jù)就可以進行數(shù)據(jù)轉(zhuǎn)換了。數(shù)據(jù)轉(zhuǎn)換是數(shù)據(jù)治理過程中的一項復雜工程,如果方法不得當,則容易造成數(shù)據(jù)丟失。有機構(gòu)研究表明,主數(shù)據(jù)關(guān)聯(lián)的業(yè)務(wù)數(shù)據(jù),丟失300MB的數(shù)據(jù),對市場營銷部門就意味著13萬元人民幣的損失,對財務(wù)部門就意味著16萬元人民幣的損失,對工程部門來說損失可達80萬元人民幣。如果丟失的關(guān)鍵數(shù)據(jù)在15天內(nèi)仍得不到恢復,企業(yè)就有可能被淘汰出局。對企業(yè)數(shù)據(jù)轉(zhuǎn)換造成的丟失,將意味著更大的損失。數(shù)據(jù)轉(zhuǎn)換過程中的幾種風險包括數(shù)據(jù)丟失、數(shù)據(jù)不完整、數(shù)據(jù)不一致等幾種。
(1)數(shù)據(jù)丟失。主數(shù)據(jù)與各個業(yè)務(wù)系統(tǒng)有緊密的關(guān)聯(lián)關(guān)系,數(shù)據(jù)轉(zhuǎn)換過程中,由于對數(shù)據(jù)關(guān)系沒有做到充分的準備,容易造成數(shù)據(jù)部分丟失或者整體丟失的現(xiàn)象。主數(shù)據(jù)對于日常業(yè)務(wù)運作數(shù)據(jù)及領(lǐng)導層決策數(shù)據(jù)都起著至關(guān)重要的聯(lián)系作用,一旦不慎丟失,將會造成不可估量的損失,輕則辛苦積累起來的心血付之東流,嚴重的會影響業(yè)務(wù)的正常運作,給生產(chǎn)造成巨大的損失。為了避免數(shù)據(jù)丟失,在數(shù)據(jù)處理前必須做好數(shù)據(jù)備份工作。一種簡單的方案就是執(zhí)行基于磁帶或硬盤的備份,并執(zhí)行恢復。不過,類似平移遷移,備份和恢復在及時恢復服務(wù)方面提供的能力很有限。另外,備份和恢復并不是最適合數(shù)據(jù)遷移的理想方法,它更適合數(shù)據(jù)恢復方案有限的災難恢復這種場景。
為了避免數(shù)據(jù)丟失,在數(shù)據(jù)遷移處理前要做好充分的準備。
? 前期的環(huán)境調(diào)研工作必須充分:環(huán)境調(diào)研包括源數(shù)據(jù)庫環(huán)境、版本、數(shù)據(jù)量大小、業(yè)務(wù)場景、操作系統(tǒng)版本、源數(shù)據(jù)庫環(huán)境與目的數(shù)據(jù)庫環(huán)境的差異等。
? 遷移方案準備,盡量優(yōu)化細節(jié),預留充分的備份時間窗口:最好能在測試環(huán)境測試其可行性以及實際耗時后,再到生產(chǎn)環(huán)境中實施。有時工作中碰到過實施時間安排的貌似很合理,結(jié)果實施過程中的第一步操作延誤,造成系統(tǒng)停頓了好久時間。
? 方案一定要扎實、全面,一定要有回退方案或者保底方案:確保數(shù)據(jù)備份,回退可行,不能存在僥幸心理,以免發(fā)生當數(shù)據(jù)遷移失敗緊急回退時才發(fā)現(xiàn)源數(shù)據(jù)庫竟然無法啟動,不得不再對源數(shù)據(jù)庫進行回退操作的情況。
? 有條件的,一定要各方面的專家給予現(xiàn)場支持:數(shù)據(jù)遷移一般是晚上實施,需保證人員角色齊備,最好是A/B角一起參與,以免晚上精神不好,敲錯指令。最好是主機工程師和存儲工程師都在。
(2)數(shù)據(jù)不完整。如果數(shù)據(jù)庫中存儲有不正確的數(shù)據(jù)值,則該數(shù)據(jù)庫稱為已喪失數(shù)據(jù)完整性。數(shù)據(jù)轉(zhuǎn)換過程中,如果沒有對某些數(shù)據(jù)進行完整性校驗,由于轉(zhuǎn)換關(guān)系不正確,容易造成數(shù)據(jù)不完整的事故。因此,在數(shù)據(jù)轉(zhuǎn)換過程中,應(yīng)對數(shù)據(jù)做好充分前期校驗工作。數(shù)據(jù)庫采用多種方法來保證數(shù)據(jù)完整性,包括外鍵、約束、規(guī)則和觸發(fā)器。系統(tǒng)應(yīng)很好地處理這四者的關(guān)系,并針對不同的具體情況用不同的方法進行,相互交叉使用,相補缺點。
完整性約束主要有實體完整性約束、參照完整性約束、函數(shù)依賴約束、統(tǒng)計約束4類。
? 實體完整性約束:實體完整性是指一個關(guān)系中所有主屬性(即主碼的屬性)不能取空值。所謂“空值”就是“不知道”或“無意義”的值。如主屬性取空值,就說明某個不可標識的實體,這與現(xiàn)實世界的應(yīng)用環(huán)境相矛盾,因此這個實體一定不是完整的實體。
? 參照完整性約束:參照完整性約束是指參照關(guān)系中外碼的取值或者是空值(外碼的每個屬性均為空值),或者是取被參照關(guān)系中某個元組的主碼值。
? 函數(shù)依賴約束:大部分函數(shù)依賴約束都是隱含在關(guān)系模式結(jié)構(gòu)中,特別是規(guī)范化程度較高的關(guān)系模式(如3NF)都由模式來保持函數(shù)依賴。在實際應(yīng)用中,為了不使信息過于分離,一般不能過分地追求規(guī)范化。這樣在關(guān)系的字段間就可以存在一些函數(shù)要顯式地表示出來。
? 統(tǒng)計約束:即某個字段值與一個關(guān)系多個元組的統(tǒng)計值之間的約束關(guān)系。如本部門經(jīng)理的工資不得高于本部門職工平均工資的5倍。其中職工的平均工資值是一個統(tǒng)計計算值。在許多場合,統(tǒng)計數(shù)據(jù)往往可以公開,而個別數(shù)據(jù)卻是保密的,但是個別數(shù)據(jù)值可以從統(tǒng)計數(shù)據(jù)推斷出來,所以要采取一定的防范措施防止數(shù)據(jù)泄密。
(3)數(shù)據(jù)不一致。信息系統(tǒng)的多樣性帶來了數(shù)據(jù)不一致性。開展計算機集成必然面臨各式各樣的迥然相異的被集成單位的信息系統(tǒng)。被集成信息系統(tǒng)的差異,必然給集成工作帶來數(shù)據(jù)的不一致性問題。數(shù)據(jù)的不一致性大體有以下表現(xiàn)形式。
? 同一字段在不同的應(yīng)用中具有不同的數(shù)據(jù)類型。
? 同一字段在不同的應(yīng)用中具有不同的名字,或是同名字段,具有不同含義。
? 同一信息在不同的應(yīng)用中有不同的格式。
? 同一信息在不同的應(yīng)用中有不同的表達方式。
對于這些不一致的數(shù)據(jù),必須進行轉(zhuǎn)換后才能供主數(shù)據(jù)平臺分析之用。數(shù)據(jù)的不一致性是多種多樣的,對每種情況都必須專門處理。
解決數(shù)據(jù)不一致的問題,需要進行數(shù)據(jù)轉(zhuǎn)換。所謂數(shù)據(jù)轉(zhuǎn)換,從計算機集成的需求來講,主要包括兩方面的內(nèi)容:一是將被集成單位的數(shù)據(jù)有效地裝載到主數(shù)據(jù)平臺所操縱的數(shù)據(jù)庫中;二是明確地標識出每張表、每個字段的具體含義及其相互之間的關(guān)系。
數(shù)據(jù)轉(zhuǎn)換的第一步工作,是數(shù)據(jù)的有效性檢查。為避免數(shù)據(jù)冗余和差錯,在轉(zhuǎn)換之前,應(yīng)該對數(shù)據(jù)進行有效性檢查,如果沒有進行數(shù)據(jù)有效性檢查,就有可能破壞主數(shù)據(jù)平臺處理所需的完整性。檢查數(shù)據(jù)有效性的最好方法是獲得被集成單位的有關(guān)人員(包括具有技術(shù)專業(yè)知識和業(yè)務(wù)專業(yè)知識的人員)的幫助。
在有效性檢查完成后,就要進行數(shù)據(jù)的清除和轉(zhuǎn)換。所謂清除,指的是去掉那些與集成目的無關(guān)的數(shù)據(jù),而僅僅將集成工作所關(guān)注的那些數(shù)據(jù)采集過來。數(shù)據(jù)轉(zhuǎn)換有以下幾種基本類型。
1)簡單變換
? 數(shù)據(jù)類型轉(zhuǎn)換:最常見的簡單變換是轉(zhuǎn)換一個數(shù)據(jù)元的類型,這是將一種類型的數(shù)據(jù)轉(zhuǎn)換成另一種類型的數(shù)據(jù),數(shù)據(jù)轉(zhuǎn)換的前提是類型相容。類型相容指的是一種類型數(shù)據(jù)的值域可以通過常用的轉(zhuǎn)換函數(shù)映射到另一種類型的值域上,這種映射不會丟失數(shù)據(jù)的精確度。類型相容的轉(zhuǎn)換被認為是合適的轉(zhuǎn)換,如整型到文本型轉(zhuǎn)換;類型不相容的轉(zhuǎn)換是不合適的轉(zhuǎn)換,如文本型到整型的轉(zhuǎn)換。
? 日期/時間格式的轉(zhuǎn)換:因大多數(shù)系統(tǒng)都采用許多不同的日期和時間格式,所以在主數(shù)據(jù)平臺中幾乎都要進行日期和時間格式的轉(zhuǎn)換,將它轉(zhuǎn)換成主數(shù)據(jù)平臺處理所需的統(tǒng)一格式。這可以通過手工程序編碼來完成,它能把一個日期或時間字段拆成幾個子部分,再將它們拼成想要的格式和字段。然而,大多數(shù)主數(shù)據(jù)平臺中的數(shù)據(jù)導入和轉(zhuǎn)換工具都提供了日期和時間格式之間轉(zhuǎn)換的設(shè)置,采用手工編碼的情況就比較少了。
? 代碼轉(zhuǎn)換:在業(yè)務(wù)數(shù)據(jù)庫建立代碼是為了節(jié)省數(shù)據(jù)庫存儲空間并提高計算機的處理效率。這些代碼一般是系統(tǒng)管理員設(shè)置,由應(yīng)用程序維護的。這給主數(shù)據(jù)平臺處理帶來了很大的不便。有兩種方法可以解決這一問題,如果主數(shù)據(jù)平臺中采用了代碼設(shè)計,而被集成單位的代碼能夠滿足主數(shù)據(jù)平臺需要的,可以將被集成單位的代碼表轉(zhuǎn)換到主數(shù)據(jù)平臺的代碼表上來;如果集成單位的代碼不能滿足主數(shù)據(jù)平臺的需要,就必須根據(jù)主數(shù)據(jù)平臺的要求對它重新編碼。
? 值域轉(zhuǎn)換:值域轉(zhuǎn)換是將一個字段的全部或部分取值映射到另一個字段的全部或部分取值上。
2)數(shù)據(jù)清洗
數(shù)據(jù)清洗指的是比簡單變換更復雜的一種數(shù)據(jù)變換。在這些變換中,要檢查的是字段或字段組的實際內(nèi)容而不僅是存儲格式。清洗是檢查數(shù)據(jù)字段中的有效值,這可以通過范圍檢驗、枚舉清單和相關(guān)檢驗來完成。
? 有效值:范圍檢驗是數(shù)據(jù)清洗的最簡單形式,這是指檢驗一個字段中的數(shù)據(jù)以保證它落在預期之內(nèi),通常是數(shù)據(jù)范圍或日期范圍。枚舉清單也相對容易實現(xiàn)。這種方法是對照數(shù)據(jù)字段可接受值的清單檢驗該字段的值。相關(guān)檢驗復雜一些,因為它要求將一個字段中的值與另一個字段中的值進行對比,看它們是否滿足一定的相關(guān)關(guān)系,當然,數(shù)據(jù)清洗規(guī)則往往是這些不同方法的結(jié)合。
? 復雜的重新格式化:數(shù)據(jù)清洗的另一種主要類型是重新格式化某些類型的數(shù)據(jù)。這種方法適用于將許多不同方式存儲在不同數(shù)據(jù)來源中的信息轉(zhuǎn)換成主數(shù)據(jù)平臺所要求的統(tǒng)一的表示方式。最需要格式化的信息之一是摘要信息,由于沒有一種書寫摘要的標準方式,所以同一個內(nèi)容的摘要可以用許多不同方式表達出來,這就要求將摘要解析成幾個組成部分,然后再將這些組成部分進行轉(zhuǎn)換并重新排列成一個統(tǒng)一的格式。
4.1.3 集成風險
經(jīng)過專家組多次研討和商定,建立完成了符合企業(yè)需求的主數(shù)據(jù)管理體系之后,就將進入系統(tǒng)集成階段,目的是將確定無誤的主數(shù)據(jù)推送到各個業(yè)務(wù)系統(tǒng)(如OA、HR、ERP等)中去使用,這時就涉及技術(shù)開發(fā)層面的系統(tǒng)集成和調(diào)試了。
在系統(tǒng)集成環(huán)節(jié),主數(shù)據(jù)項目負責人的主要職責是協(xié)調(diào)各個信息系統(tǒng)廠商的工作進度,尤其是要集成多個信息系統(tǒng)時,各開發(fā)團隊需要互相配合進行系統(tǒng)集成和調(diào)試。對關(guān)鍵時間節(jié)點企業(yè)要予以把控,及時跟進和督促各個廠商的工作進展,以保障建設(shè)工期按時按要求完成。
在系統(tǒng)集成過程中會涉及多個源系統(tǒng),對于各個源系統(tǒng)的數(shù)據(jù)來源都可能是異構(gòu)的,因此在集成的過程當中需要應(yīng)用到一些數(shù)據(jù)庫的工具來不斷地增加其產(chǎn)品的穩(wěn)定性和可靠性等。另外,數(shù)據(jù)資源的浪費現(xiàn)象也是相當嚴重的,在很大程度上會造成系統(tǒng)數(shù)據(jù)的丟失,其中包括了信息資源的丟失和信息資源結(jié)構(gòu)的丟失兩種現(xiàn)象。前者還可以利用數(shù)據(jù)備份和恢復及技術(shù);但是如果發(fā)生了后者的丟失現(xiàn)象,就需要花費較大的精力。系統(tǒng)集成時主要的風險體現(xiàn)在系統(tǒng)多、關(guān)系復雜;系統(tǒng)封閉、不開放;開發(fā)平臺不同、數(shù)據(jù)結(jié)構(gòu)有差異。
針對集成過程中出現(xiàn)的風險,建議采取如下措施預防。
? 需要對其數(shù)據(jù)的應(yīng)用做出嚴格的集成規(guī)定,對其數(shù)據(jù)在應(yīng)用方面所產(chǎn)生的工作進行不斷地優(yōu)化,在業(yè)務(wù)運營方面可以再根據(jù)實際情況來建立一個相對獨立的業(yè)務(wù)運營系統(tǒng),來實現(xiàn)數(shù)據(jù)信息的存儲,最大限度地將企業(yè)內(nèi)部的信息形成一個較為集中的集成系統(tǒng)。在這個過程當中,需要對內(nèi)部眾多分散的業(yè)務(wù)系統(tǒng)和數(shù)據(jù)系統(tǒng)進行不斷地優(yōu)化,對數(shù)據(jù)進行一個有效的集中集合,針對分散的數(shù)據(jù)做一個全面的調(diào)整,最終實現(xiàn)對數(shù)據(jù)有效、科學的處理,避免出現(xiàn)數(shù)據(jù)冗余的現(xiàn)象。
? 針對數(shù)據(jù)分散問題找到有效的解決方式,需了解其數(shù)據(jù)集成方式帶來的風險,如單一系統(tǒng)數(shù)據(jù)質(zhì)量問題、數(shù)據(jù)缺失、錯誤數(shù)據(jù)非空、唯一數(shù)據(jù)關(guān)聯(lián)完整性。在對跨系統(tǒng)數(shù)據(jù)進行處理的時候,其質(zhì)量的問題會導致一定程度上的數(shù)據(jù)偏差。除此之外,在歷史遺留的數(shù)據(jù)方面也會存在一定的數(shù)據(jù)集成風險,會對數(shù)據(jù)的協(xié)調(diào)性問題造成一定程度的影響。
? 遺留系統(tǒng)在管理方面存在著一系列的問題,集中體現(xiàn)在數(shù)據(jù)質(zhì)量缺乏專門的數(shù)據(jù)管理組織與相關(guān)的制度及規(guī)范方面,從而使得對數(shù)據(jù)質(zhì)量的改善僅僅依靠于臨時的或者偶爾的數(shù)據(jù)清理行為。有時,會呈現(xiàn)出子系統(tǒng)數(shù)量眾多且數(shù)據(jù)分散的現(xiàn)象,在此種情況下,需要對數(shù)據(jù)的質(zhì)量問題做出嚴格的分析,如數(shù)據(jù)準確性小、數(shù)據(jù)完整性不夠、數(shù)據(jù)沖突等,為此可以成立一個專門的數(shù)據(jù)質(zhì)量核查小組來對數(shù)據(jù)質(zhì)量做出嚴格審核,最終最大限度減少由于數(shù)據(jù)造成的數(shù)據(jù)風險等,為以后的項目運行提供必要的實踐指導意義。
? 在數(shù)據(jù)的集成過程中,不能簡單地把有質(zhì)量問題的數(shù)據(jù)拋棄,因為這些數(shù)據(jù)中有可能蘊涵集成線索。首先要根據(jù)數(shù)據(jù)質(zhì)量的要求,對數(shù)據(jù)進行檢查,對發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題進行分析,找出造成問題的原因,發(fā)現(xiàn)隱含的集成線索;然后清洗有質(zhì)量問題的數(shù)據(jù)。清洗的目的是為后續(xù)的數(shù)據(jù)分析做準備,有問題的數(shù)據(jù)會給數(shù)據(jù)分析工作帶來錯誤。
4.1.4 其他風險
主數(shù)據(jù)項目實施的風險包括組織管理風險、數(shù)據(jù)質(zhì)量風險、數(shù)據(jù)轉(zhuǎn)換風險、系統(tǒng)集成風險等方面。在數(shù)據(jù)治理項目實施過程中,企業(yè)內(nèi)部還可能存在以下風險。
? 僅通過企業(yè)內(nèi)部調(diào)研各專業(yè)的需求難度較大。單單依靠信息部門的力量來了解企業(yè)領(lǐng)導、業(yè)務(wù)部門、基層單位和網(wǎng)點對數(shù)據(jù)的具體需求的工作實施較為困難,需要專業(yè)的團隊配合信息部門進行調(diào)研、分析,通過了解模糊需求,然后采用業(yè)界成熟的方法和手段,抽絲剝繭,逐漸明確最終的數(shù)據(jù)需求。措施:專業(yè)團隊介入、明確數(shù)據(jù)需求。
? 治理任務(wù)會對工作人員的主要任務(wù)造成影響。由于企業(yè)涉及的數(shù)據(jù)量非常大,如果對所有的數(shù)據(jù)全部鋪開進行治理,需要全企業(yè)的各方資源進行傾斜,必然會對其他工作的進展造成影響,因此,一般會選取解決當前業(yè)務(wù)部門要求強烈的關(guān)鍵數(shù)據(jù)質(zhì)量問題為著力點,倒推出其數(shù)據(jù)來源的問題進行重點整治,在該類數(shù)據(jù)治理得到價值體現(xiàn)后,再總結(jié)治理經(jīng)驗,然后逐步開展其他類型數(shù)據(jù)治理。措施:關(guān)鍵問題引領(lǐng)、先試點后推廣。
? 企業(yè)缺少豐富經(jīng)驗的數(shù)據(jù)建模專家。數(shù)據(jù)標準化管理必須和各系統(tǒng)大量的數(shù)據(jù)模型打交道,從標準化要求的角度,分析該類數(shù)據(jù)包含的所有信息要素的技術(shù)定義,并進行對應(yīng)邏輯數(shù)據(jù)建模和物理數(shù)據(jù)建模。此項工作的工作量非常巨大,建議在數(shù)據(jù)治理平臺實施的同時,一方面引入業(yè)界有豐富經(jīng)驗的數(shù)據(jù)建模專家加以輔導和幫助;另一方面對各系統(tǒng)數(shù)據(jù)模型匯總分析求同存異,一步步形成企業(yè)數(shù)據(jù)標準的技術(shù)定義數(shù)據(jù)模型。措施:引入建模專家、建立數(shù)據(jù)標準。
? 治理權(quán)責歸屬會涉及各自的利益沖突。分析各類數(shù)據(jù)資源的業(yè)務(wù)和系統(tǒng)治理權(quán)責歸屬,此項工作可能涉及的利益沖突非常強烈,需通過項目實施過程中建立管控機制,讓治理主體在背負一定責任的同時也能享受到對應(yīng)的利益。措施:建立管理機制、責任利益共存。
? 多數(shù)據(jù)源同時治理時需要企業(yè)有預算支持。數(shù)據(jù)治理工作可能需要對各個數(shù)據(jù)源系統(tǒng)進行標準化及質(zhì)量提升的改造。此項工作復雜度較高,在確定需改造的源系統(tǒng)后,各個源系統(tǒng)的管理部門應(yīng)及時評估改造工作量及費用預算,這些工作后續(xù)通過項目立項的方式來實施,企業(yè)應(yīng)給予充分的資源支持,而數(shù)據(jù)治理的責任主體對于這些項目的建設(shè)過程要負責全程跟蹤和控制。措施:多數(shù)據(jù)源系統(tǒng)、共同參與治理。
站在項目開發(fā)與實施角度,主數(shù)據(jù)項目還有以下常見的幾種風險。
? 需求風險:需求已經(jīng)成為項目基準,但需求隨時變化;需求定義欠佳,而進一步的定義會擴展項目范疇;產(chǎn)品定義含混的部分比預期需要更多的時間;在做需求調(diào)研時客戶參與不夠;缺少有效的需求變化管理過程。
? 計劃編制風險:計劃、資源和產(chǎn)品定義全憑客戶或上層領(lǐng)導口頭指令,并且不完全一致;計劃是優(yōu)化的,是“最佳狀態(tài)”,但計劃不切實際,只能算是“期望狀態(tài)”;計劃基于使用特定的小組成員,而那個特定的小組成員其實指望不上;產(chǎn)品規(guī)模(代碼行數(shù)、功能點)比估計的要大;完成目標日期提前,但沒有相應(yīng)地調(diào)整產(chǎn)品范圍或可用資源;涉足不熟悉的產(chǎn)品領(lǐng)域,花費在設(shè)計和實現(xiàn)上的時間比預期的要多。
? 開發(fā)環(huán)境風險:設(shè)施未及時到位;設(shè)施雖到位,但不配套,如沒有電話、網(wǎng)線、辦公用品等;設(shè)施擁擠、雜亂或者破損;開發(fā)工具未及時到位;開發(fā)工具不如期望的那樣有效,開發(fā)人員需要時間創(chuàng)建工作環(huán)境或者切換新的工具。
? 設(shè)計和實現(xiàn)風險:設(shè)計質(zhì)量低下,導致重復設(shè)計;一些必要的功能無法使用現(xiàn)有的代碼和庫實現(xiàn),開發(fā)人員必須使用新的庫或者自行開發(fā)新的功能;代碼和庫質(zhì)量低下,導致需要進行額外的測試,修正錯誤,或重新制作;過高估計了增強型工具對計劃進度的節(jié)省量;分別開發(fā)的模塊無法有效集成,需要重新設(shè)計或制作。
? 過程風險:大量的紙面工作導致進程比預期的慢;前期的質(zhì)量保證行為不真實,導致后期的重復工作;缺乏對軟件開發(fā)策略和標準的遵循,導致溝通不足,質(zhì)量欠佳,甚至需重新開發(fā);教條地堅持軟件開發(fā)策略和標準,導致過多耗時于無用的工作;向管理層撰寫進程報告占用開發(fā)人員的時間比預期的多;風險管理粗心,導致未能發(fā)現(xiàn)重大的項目風險。
- Practical Ansible 2
- Circos Data Visualization How-to
- 7天精通Dreamweaver CS5網(wǎng)頁設(shè)計與制作
- MCSA Windows Server 2016 Certification Guide:Exam 70-741
- WordPress Theme Development Beginner's Guide(Third Edition)
- Cloudera Administration Handbook
- 網(wǎng)絡(luò)管理工具實用詳解
- 電腦上網(wǎng)輕松入門
- 智能鼠原理與制作(進階篇)
- 大數(shù)據(jù):引爆新的價值點
- 基于Proteus的PIC單片機C語言程序設(shè)計與仿真
- Hands-On DevOps
- 伺服與運動控制系統(tǒng)設(shè)計
- FANUC工業(yè)機器人虛擬仿真教程
- Mastering Machine Learning with R