官术网_书友最值得收藏!

3.2 如何選擇解決方案

企業(yè)選擇大數(shù)據(jù)解決方案時,需要綜合企業(yè)外部環(huán)境、企業(yè)內(nèi)部環(huán)境、需求規(guī)劃、解決方案特性和解決方案費用評估分析五個方面。

3.2.1 外部環(huán)境分析

1.行業(yè)情況

企業(yè)對于行業(yè)情況的分析,側(cè)重于全面掌握未來幾年或十幾年的發(fā)展預期,大數(shù)據(jù)解決方案對企業(yè)決策會產(chǎn)生重要的影響,其對行業(yè)情況的分析主要包括:

?業(yè)務(wù)增長規(guī)模。不同的業(yè)務(wù)規(guī)模對大數(shù)據(jù)解決方案的要求也有差異。比如,每日200萬銷售額跟每日2億銷售額完全是兩個級別,后者則對大數(shù)據(jù)解決方案的整體架構(gòu)、實時計算、批量查詢、在線聯(lián)機分析等能力要求較高。

?預期業(yè)務(wù)布局。業(yè)務(wù)布局導致的行業(yè)特性變化會影響大數(shù)據(jù)方案的組建,尤其對應到頂端應用層會增加對特定垂直行業(yè)的經(jīng)驗要求。對大數(shù)據(jù)解決方案提供商而言,專注于特定行業(yè)意味著具有聚焦的技術(shù)和業(yè)務(wù)能力,也更利于為特定業(yè)務(wù)做出輔助決策或形成驅(qū)動效應。

?市場角色地位。企業(yè)自身的市場地位不同,對應到大數(shù)據(jù)層面的市場戰(zhàn)略分析、競品分析的需求和關(guān)注點也不一樣,這就對大數(shù)據(jù)解決方案提出了更高的戰(zhàn)略性支持需求。

?客戶分析。企業(yè)的目標客戶由自身的經(jīng)營方向決定,目標客戶可能包括B端(B2B,企業(yè)對企業(yè))、C端(B2C,企業(yè)對個人消費者)、G端(B2G,企業(yè)對政府)及其他模式組合。不同的客戶群體有各自特殊的分析方法和建模應用方案,這對大數(shù)據(jù)挖掘、計算和應用層面提出了更有側(cè)重性的要求。

?業(yè)務(wù)模式分析。不同的業(yè)務(wù)模式會產(chǎn)生不同的數(shù)據(jù),并對數(shù)據(jù)的生產(chǎn)、加工、計算和分析產(chǎn)生不同的影響。比如,同樣是To C的業(yè)務(wù)模式,淘寶、百度、騰訊完全是三種不同類型的業(yè)務(wù),淘寶側(cè)重于圍繞交易形成個人生態(tài)圈,百度側(cè)重于建立個人信息的重組,而騰訊則連接了個人的社交以及圍繞社交的生活。這些模式要求解決方案具備特定的采集、分析、挖掘、計算和應用支持。

2.競爭對手

在企業(yè)選擇大數(shù)據(jù)解決方案時,往往存在一種選擇“慣性”——看看競爭對手在用什么,尤其是對行業(yè)領(lǐng)頭羊以及跟自身相近的競爭對手這兩類對象的選擇更具參考價值。為什么企業(yè)會非常重視競爭對手的解決方案選型?有以下四個方面的原因:

?規(guī)避風險的需要。很多大企業(yè)在做方案選型時的一個重要出發(fā)點是最大限度地降低項目失敗的風險,而競爭對手的選擇會說明其他企業(yè)也有類似的案例,尤其是案例企業(yè)具有代表性,那么則意味著大家都比較認可該解決方案。

?經(jīng)驗不足的參照。雖然在大數(shù)據(jù)實踐方面有各自的差異點,但同一行業(yè)中的不同公司在業(yè)務(wù)上是相似的。企業(yè)對于自身大數(shù)據(jù)的差異點與大數(shù)據(jù)解決方案的匹配可能無法做出正確判斷,但基于業(yè)務(wù)的相似性,企業(yè)可以借助于競品選擇來幫助自身做出快速且相對正確的判斷。

?增加方案的說服力。很多第三方服務(wù)商在做銷售推介時,一定都會有一部分是關(guān)于銷售和應用案例的。這些信息在企業(yè)進行內(nèi)部提案時,是一個非常有效的增加方案說服力并推進落地進程的要素。

?可供學習的模式。在某些情況下,如果行業(yè)內(nèi)很多企業(yè)都選擇同一個服務(wù)商,那么該服務(wù)商的產(chǎn)品或服務(wù)模式會基于該行業(yè)形成垂直型解決方案,這些解決方案其實是對行業(yè)經(jīng)驗的總結(jié)和共享。這有利于企業(yè)迅速了解該行業(yè)有關(guān)數(shù)據(jù)和業(yè)務(wù)的通用經(jīng)驗,提高自身大數(shù)據(jù)項目的實踐能力和價值產(chǎn)出。

3.2.2 內(nèi)部環(huán)境分析

1.業(yè)務(wù)現(xiàn)狀

企業(yè)內(nèi)部進行業(yè)務(wù)現(xiàn)狀分析的主要目的是了解現(xiàn)有業(yè)務(wù)對數(shù)據(jù)工作的認知、保障和約束,然后作為數(shù)據(jù)選型的基本出發(fā)點。

數(shù)據(jù)工作文化

數(shù)據(jù)工作文化是企業(yè)文化的一種,不同工作文化下,企業(yè)員工對于數(shù)據(jù)的價值認知、分析水平、數(shù)據(jù)結(jié)果理解和數(shù)據(jù)應用會產(chǎn)生不同影響。數(shù)據(jù)工作文化良好的企業(yè)由于在大數(shù)據(jù)工作方面已然形成工作機制,并且具備較高的數(shù)據(jù)工作技能,因此能借助成熟的解決方案提高大數(shù)據(jù)價值產(chǎn)出,即使是面對復雜的大數(shù)據(jù)解決方案也能有效加以使用;反之,大數(shù)據(jù)價值很難通過企業(yè)的工作文化融合到業(yè)務(wù)運營中,數(shù)據(jù)價值很難顯現(xiàn)。數(shù)據(jù)解決方案的應用流程、應用場景、規(guī)范性要求、多部門配合機制、界面友好性、功能使用習慣、工具和文檔語言限制等需要與當前工作文化相匹配。

團隊組織架構(gòu)

我們在第2章中已經(jīng)介紹了企業(yè)大數(shù)據(jù)工作的相關(guān)組織架構(gòu)和職能體系。大數(shù)據(jù)工作的不同環(huán)節(jié)需要具備特定技能的人才來實現(xiàn)。如果企業(yè)缺少特定的角色和組織保障,那么在選型中就需要注意這種缺失與方案落地實施的要求是否沖突。

數(shù)據(jù)工作能力

大數(shù)據(jù)工作不僅僅是技術(shù)部門和數(shù)據(jù)部門的事情,而且需要企業(yè)所有部門公同參與。不同部門的數(shù)據(jù)工作能力(例如數(shù)據(jù)理解、數(shù)據(jù)提取、數(shù)據(jù)應用、數(shù)據(jù)分析等)會影響大數(shù)據(jù)解決方案的選擇。通常,功能強大的大數(shù)據(jù)產(chǎn)品會提供較多的預置功能,另外也會提供靈活的自定義配置和部署能力,這些對于沒有太多數(shù)據(jù)工作能力的人員來講是一個非常大的挑戰(zhàn)。因此,工具能否被有效利用,需要綜合考慮現(xiàn)階段人員的基本數(shù)據(jù)技能,以及掌握預選方案需要技能的上手時間和難易程度,同時還要考慮服務(wù)提供商是否有完善的培訓、指導、應用和售后體系。

2.數(shù)據(jù)現(xiàn)狀

數(shù)據(jù)現(xiàn)狀是對企業(yè)環(huán)境內(nèi)可接觸到數(shù)據(jù)基本情況的調(diào)查分析,包括數(shù)據(jù)源環(huán)境、數(shù)據(jù)結(jié)構(gòu)類型、數(shù)據(jù)量級、數(shù)據(jù)質(zhì)量、數(shù)據(jù)成長。

數(shù)據(jù)源環(huán)境

對現(xiàn)有數(shù)據(jù)源環(huán)境的正確認知是大數(shù)據(jù)整合應用的基礎(chǔ)。數(shù)據(jù)環(huán)境的分析包括數(shù)據(jù)源的業(yè)務(wù)基礎(chǔ)分為幾個模塊、各個業(yè)務(wù)模塊和數(shù)據(jù)模塊間的相互關(guān)系、數(shù)據(jù)存放的位置以及數(shù)據(jù)庫(或數(shù)據(jù)文件)基本約束、不同數(shù)據(jù)庫表和數(shù)據(jù)流轉(zhuǎn)的元數(shù)據(jù)規(guī)范以及數(shù)據(jù)字典等。其中對選型影響最大的是源數(shù)據(jù)系統(tǒng)、異構(gòu)復雜程度、同步更新信息、數(shù)據(jù)關(guān)聯(lián)項等,這會影響方案對數(shù)據(jù)源抽取、集成及后面所有的應用流程。

數(shù)據(jù)結(jié)構(gòu)類型

大多數(shù)企業(yè)的數(shù)據(jù)都是以結(jié)構(gòu)化的形式進行存儲,而在很多業(yè)務(wù)環(huán)境中也可能存在大量的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),例如機器日志、報批文件、辦公文件等。而某些情況下,業(yè)務(wù)數(shù)據(jù)既可能存儲在結(jié)構(gòu)化數(shù)據(jù)庫中,也可能以半結(jié)構(gòu)化甚至結(jié)構(gòu)化的文件存儲。對于這些信息的了解利于在選型時有針對性地考察大數(shù)據(jù)解決方案在特定方面的處理和計算能力,例如如果企業(yè)有語音數(shù)據(jù),那么后期可能需要大數(shù)據(jù)解決方案能夠?qū)崿F(xiàn)語音文件抽取、存儲、解析,以及針對解析后內(nèi)容的語義分析和挖掘等。

數(shù)據(jù)量級

不同的數(shù)量級下,對應到解決方案工具本身的抽取、存儲、處理和計算的能力要求也是不同的。同時,由于數(shù)據(jù)實時性的要求,在海量數(shù)據(jù)(例如PB、ZB、EB等)下,對大數(shù)據(jù)平臺實時計算的要求更高。因此,在選擇解決方案時,需要重點考慮工具對于海量數(shù)據(jù)在單位時間內(nèi)的抽取、計算、建模、輸出的能力以及實時性,并且考察當數(shù)據(jù)規(guī)模上來之后對系統(tǒng)壓力、冗余性、安全性、并發(fā)性、響應性等的影響。

在企業(yè)數(shù)據(jù)量級的評估過程中,要綜合所有可用的數(shù)據(jù)源。企業(yè)內(nèi)部數(shù)據(jù)包括三類:常見的數(shù)據(jù)源都是業(yè)務(wù)類數(shù)據(jù),包含業(yè)務(wù)運營的各個方面,例如采購、生產(chǎn)、庫存、調(diào)配、物流、分銷、營銷、促銷、客服等;除了業(yè)務(wù)數(shù)據(jù)外,企業(yè)的職能數(shù)據(jù)是企業(yè)內(nèi)部運轉(zhuǎn)的記載,包括人事、行政、檢查、管理、計劃、評審等職能線的數(shù)據(jù);最后一類是來自于IT本身的日志記錄,這是對IT機房環(huán)境、寬帶網(wǎng)絡(luò)、設(shè)備軟硬件等機器運行數(shù)據(jù)(例如性能、應用、事件、錯誤等)的綜合記載。綜合這三類數(shù)據(jù)才能構(gòu)成企業(yè)內(nèi)部的完整數(shù)據(jù)。但是,企業(yè)不只有內(nèi)部數(shù)據(jù),還會通過多種途徑與上下游產(chǎn)業(yè)鏈、渠道商、合作商等進行數(shù)據(jù)交換、整合和交易等,這些也是需要進入到企業(yè)數(shù)據(jù)量級的考慮范疇內(nèi)。

數(shù)據(jù)質(zhì)量

數(shù)據(jù)質(zhì)量本身影響的不僅是在選擇數(shù)據(jù)解決方案后的工作,更在選擇方案之前就會對方案提出一定要求。在不同的數(shù)據(jù)質(zhì)量下,對數(shù)據(jù)的加工、轉(zhuǎn)換和處理要求是不同的。比如,對數(shù)據(jù)關(guān)聯(lián)項明確、完整性高、同步及時、準確率高等的數(shù)據(jù),由于數(shù)據(jù)質(zhì)量高對大數(shù)據(jù)工具的數(shù)據(jù)質(zhì)量校驗和處理要求會降低;但如果數(shù)據(jù)質(zhì)量較低,那么會針對數(shù)據(jù)質(zhì)量的各個方面形成較高的要求,比如,對數(shù)據(jù)完整性、一致性、及時性、準確性等方面的數(shù)據(jù)校驗規(guī)則、數(shù)據(jù)質(zhì)量度檢查、數(shù)據(jù)異常處理、數(shù)據(jù)血緣分析、數(shù)據(jù)異動影響、數(shù)據(jù)關(guān)聯(lián)分析等具有較高要求。

數(shù)據(jù)成長

隨著企業(yè)的發(fā)展壯大,數(shù)據(jù)也在不斷成長。在評估解決方案時需要有針對性地評估數(shù)據(jù)伴隨業(yè)務(wù)增長帶來的預期因素,尤其是數(shù)據(jù)量、數(shù)據(jù)種類、增長速度、數(shù)據(jù)計算需求、數(shù)據(jù)整合等方面。這些對解決方案的要求主要體現(xiàn)在產(chǎn)品的性能和功能擴展時的軟硬件低成本、簡易部署和運維、功能可定制開發(fā)、系統(tǒng)和組件的解耦、數(shù)據(jù)遷移成本等。

3.制度要求

制度要求指的是企業(yè)對于所有運營工作的統(tǒng)一制度和規(guī)范。很多大型企業(yè)、國有企業(yè)、上市公司、外資公司等在這方面的表現(xiàn)明顯,甚至能成為大數(shù)據(jù)方案選型的決定性因素。制度要求在數(shù)據(jù)方面的約束包括數(shù)據(jù)安全、主導權(quán)問題、數(shù)據(jù)所有權(quán)問題等。

數(shù)據(jù)安全

數(shù)據(jù)安全是企業(yè)開展大數(shù)據(jù)工作的基本前提。企業(yè)對于數(shù)據(jù)安全的要求會在數(shù)據(jù)存儲環(huán)境、整合方法、關(guān)鍵字段加密、數(shù)據(jù)流通、人員工作環(huán)境等環(huán)節(jié)形成一定約束。比如,對很多傳統(tǒng)銀行來講,關(guān)鍵數(shù)據(jù)不能流出數(shù)據(jù)中心是制度性要求,這在客觀上要求數(shù)據(jù)方案要支持本地化或混合云的部署。再如,很多企業(yè)對關(guān)鍵字段的保密性要求非常高,并且即使在企業(yè)內(nèi)部也會根據(jù)數(shù)據(jù)的安全性進行分區(qū)存儲、處理和接入,這就要求整體解決方案中必須具備定制加密、分區(qū)隔離、流轉(zhuǎn)控制等方面的能力。

主導權(quán)問題

企業(yè)大數(shù)據(jù)項目的牽頭部門不同,那么在協(xié)調(diào)全部資源進行需求調(diào)研、項目規(guī)劃、開發(fā)實施到最終交付的整個過程中都會有所偏重。比如,如果是業(yè)務(wù)部門(或偏業(yè)務(wù)類的部門)主導和推進,那么會更重視上層建模、分析、應用和落地的場景、模型等應用輸出價值點;而如果是IT部門(或偏技術(shù)類部門)負責主導和推進,則對架構(gòu)完整性、擴展靈活性、運維低成本、技術(shù)先進性、組件解耦性、系統(tǒng)兼容性等方面更重視。兩種不同類型的業(yè)務(wù)體系在推進過程中的重視會影響最終方案的選擇傾向。因此,如果是企業(yè)級的大數(shù)據(jù)項目,在負責總體調(diào)控的核心小組中,應該通過對核心領(lǐng)導小組成員的組織結(jié)構(gòu)、利益構(gòu)成、知識組織、技能要求、經(jīng)驗模式、行業(yè)配比等有效控制來降低這種偏向性選擇風險。

數(shù)據(jù)所有權(quán)

與數(shù)據(jù)所有權(quán)問題相關(guān)的解決方案模式是云服務(wù)方案模式。在第三方云服務(wù)模式下,數(shù)據(jù)采集、跟蹤和存儲都是在云端進行的。此時,云端的所有數(shù)據(jù)是否可以完全被企業(yè)所有,并且保存到企業(yè)內(nèi)部是很多重視數(shù)據(jù)所有權(quán)的企業(yè)關(guān)心的問題。這一問題不僅關(guān)系到數(shù)據(jù)安全,更關(guān)系到企業(yè)未來數(shù)據(jù)資產(chǎn)。因此,如果企業(yè)對數(shù)據(jù)所有權(quán)非常重視,那么必須要選擇本地化或可以將云端數(shù)據(jù)完全同步到本地的解決方案。

提示

云端數(shù)據(jù)同步到本地,常用的方法包括API、文件下載等,這些方式可能存在請求或下載次數(shù)的限制,且不太適用于海量數(shù)據(jù)尤其是大文件類傳輸,海量原始數(shù)據(jù)更多地會采用FTP的方式將數(shù)據(jù)文件傳送到指定服務(wù)器上。但對于海量數(shù)據(jù)而言,這種方式受制于發(fā)送端服務(wù)器、接收端服務(wù)器、網(wǎng)絡(luò)寬帶等的穩(wěn)定性、傳輸效率的影響,經(jīng)常會由于傳輸中斷、網(wǎng)絡(luò)不穩(wěn)定、服務(wù)器權(quán)限、發(fā)送服務(wù)問題等出現(xiàn)數(shù)據(jù)殘缺、損壞、不完全等問題。除了這些問題,海量原始數(shù)據(jù)以及處理后數(shù)據(jù)的傳輸實時性也是企業(yè)的關(guān)注點,很多云服務(wù)提供商可以通過一定的方式對原始數(shù)據(jù)進行實時同步,但對于處理后的數(shù)據(jù)同步則會存在一定的延遲,這種延遲根據(jù)處理的復雜度和數(shù)據(jù)量級可能延遲到以“天”為單位的時間。

3.2.3 需求規(guī)劃分析

評價一個整體解決方案是否合適,在成本規(guī)模的制約下往往更側(cè)重于與需求的匹配度,而非功能的全面性。根據(jù)企業(yè)發(fā)展階段以及數(shù)據(jù)工作文化的不同,企業(yè)的數(shù)據(jù)需求和規(guī)劃會存在很大差異,但總體上包括企業(yè)轉(zhuǎn)型需求、業(yè)務(wù)應用需求和技術(shù)工作需求三類。

1.企業(yè)轉(zhuǎn)型需求

在企業(yè)發(fā)展的不同階段,尤其是增長面臨困境時,企業(yè)可能面臨著轉(zhuǎn)型的需求,轉(zhuǎn)型過程中可能涉及數(shù)字化運營、個性化服務(wù)、流程模式重構(gòu)、組織結(jié)構(gòu)重組等內(nèi)容,此時需要大數(shù)據(jù)在各個方面發(fā)揮輔助決策甚至應用驅(qū)動作用,是否具備針對這些內(nèi)容的聚焦點和解決方法,是考察大數(shù)據(jù)解決方案的側(cè)重點。

2.業(yè)務(wù)應用需求

在數(shù)據(jù)應用端,應用大數(shù)據(jù)的對象包括企業(yè)自身、企業(yè)的目標客戶、企業(yè)的合作伙伴甚至整個行業(yè)。企業(yè)需要根據(jù)自身情況通過調(diào)研總結(jié)得出具體需求,并考察解決方案的滿足或偏差程度。如下是一些常見的業(yè)務(wù)性應用需求:

?方案支持多少標簽以及打標簽的方法;

?如何將已有的其他工具的數(shù)據(jù)計算或挖掘直接或遷移應用到現(xiàn)有平臺;

?方案具有哪些客戶生命周期模型并如何對客戶流失進行分析;

?如何通過社會化媒體提取客戶聲量、口碑和滿意度;

?如何通過靈活的自定義配置新增或減少特定數(shù)據(jù)的跟蹤采集,而減少對技術(shù)的依賴;

?方案提供多少種數(shù)據(jù)挖掘模型;

?方案支持哪些數(shù)據(jù)挖掘或機器學習庫,是否支持第三方開源工具如R、Python等的算法庫;

?是否允許對特定維度定義靈活的預警規(guī)則并監(jiān)控觸發(fā),是否可以將該過程自動化;

?是否支持非代碼類的數(shù)據(jù)工作流?例如拖拽式工作方法;

?方案中有哪些可應用到營銷領(lǐng)域的分析和挖掘模型,都能得到哪些結(jié)論;

?如何通過方案和工具來規(guī)范數(shù)據(jù)工作流程,并逐步建立數(shù)據(jù)工作文化;

?方案是否可以基于文本字符串進行查詢檢索,例如在搜索框中輸入“昨日有哪些業(yè)務(wù)線銷售額異常變化”能直接得到對應的業(yè)務(wù)線名稱、銷售額以及變化量等。

3.技術(shù)工作需求

在技術(shù)端,企業(yè)關(guān)心的問題既包括整體方案和架構(gòu)等宏觀的部分,又包括具體技術(shù)和開發(fā)細節(jié)的微觀部分。如下是一些常見的大數(shù)據(jù)解決方案的技術(shù)型需求:

?如何對多個數(shù)據(jù)源進行統(tǒng)一標記和采集,形成具備可整合和分析價值的高質(zhì)量數(shù)據(jù);?如何實現(xiàn)多異構(gòu)、復雜數(shù)據(jù)源的數(shù)據(jù)拉通和整合;

?如何實現(xiàn)全景數(shù)據(jù)的共享及分發(fā);

?如何對多地、不同公司主體間的元數(shù)據(jù)進行統(tǒng)一管理;

?如何基于現(xiàn)有系統(tǒng)進行改造和升級,尤其是低成本、低風險、快速、安全的改造策略和方法;

?如何通過統(tǒng)一的平臺針對不同業(yè)務(wù)部門提供個性化、可定制的數(shù)據(jù)分析、應用功能,并減少產(chǎn)品冗余和降低二次開發(fā)成本;

?如何兼顧技術(shù)平臺的效率、性能、安全、成本、易用性;

?針對常見的大數(shù)據(jù)工作,例如實時處理、交互性分析、數(shù)據(jù)挖掘、機器學習、離線批處理、海量數(shù)據(jù)SQL查詢、數(shù)據(jù)可視化、商業(yè)智能、推薦引擎等,方案中的數(shù)據(jù)分析需求通過什么技術(shù)來實現(xiàn),各自的優(yōu)化點和增強點有哪些;

?如何通過云服務(wù)實現(xiàn)針對企業(yè)在不同國家、地域、體系來提供多租戶、高可用、虛擬化、模塊化、通用流程的靈活服務(wù);

?通過何種服務(wù)可對外提供數(shù)據(jù)管道、海量數(shù)據(jù)集成服務(wù)和數(shù)據(jù)輸出服務(wù)等。

3.2.4 解決方案特性分析

1.產(chǎn)品特性

對于大數(shù)據(jù)解決方案中的產(chǎn)品特征,重點考察產(chǎn)品層面的能力和特性,包括彈性付費、彈性配置、方便擴展、方便管理、簡單易用、靈活控制、功能豐富、海量數(shù)據(jù)支持、簡易實施、數(shù)據(jù)安全、可遷移性、運維成本等。

?彈性付費。彈性付費是針對具有彈性IT需求的一種靈活的付費方式,彈性付費不僅可以提高大數(shù)據(jù)投入成本的利用效率,更能減少對財務(wù)支出成本的壓力。

?彈性配置。彈性配置是與彈性付費相關(guān)的特性,更多的是云服務(wù)的配置方式,支持彈性配置的工具更能滿足企業(yè)不斷變更的需求。

?方便擴展。產(chǎn)品擴展包括整體服務(wù)器和集群擴展、服務(wù)器的硬件配置擴展、軟件環(huán)境功能升級以及組件和服務(wù)、應用場景的擴展等。

?方便管理。大數(shù)據(jù)平臺需要能將數(shù)據(jù)系統(tǒng)、業(yè)務(wù)系統(tǒng)關(guān)聯(lián)起來,形成對數(shù)據(jù)、功能、流程、應用的全面管理;同時通過監(jiān)控報表對數(shù)據(jù)主體以及應用數(shù)據(jù)的對象的行為進行監(jiān)控。

?簡單易用。由于企業(yè)內(nèi)會有具備不同技能層次的用戶參與產(chǎn)品應用,產(chǎn)品如果具備較好的易用性特征,則能更容易被所有人使用,也更利于數(shù)據(jù)價值的產(chǎn)出。

?靈活控制。面對復雜的數(shù)據(jù)需求,產(chǎn)品需要能根據(jù)不同場景提供定制化應用能力,包括資源配置、數(shù)據(jù)管控、界面組織、功能配置、環(huán)境限制等。

?功能豐富。對于一款工具而言,其功能越豐富代表可通過工具獲得的業(yè)務(wù)洞察越多。

?海量數(shù)據(jù)支持。大數(shù)據(jù)的特征之一就是數(shù)據(jù)量大,工具對海量數(shù)據(jù)(數(shù)據(jù)規(guī)模)的支持程度,尤其是處理效率、結(jié)果、性能等是重要關(guān)注點。

?簡易實施。在所有技術(shù)相關(guān)的解決方案中,IT部署實施是一項非常耗費人力的事情。如果解決方案中的技術(shù)產(chǎn)品能具備一鍵部署、管理、轉(zhuǎn)移等功能,將大幅度降低實施成本。

?數(shù)據(jù)安全。本書已經(jīng)多次強調(diào)了數(shù)據(jù)安全的重要性,工具對于數(shù)據(jù)安全的支持是企業(yè)考慮方案采購的重要維度。

?可遷移性。很多優(yōu)秀的大數(shù)據(jù)解決方案在提供強大功能特性的同時,也使得企業(yè)一旦使用了這些功能后便會被其綁架而不得不繼續(xù)使用,后期在遷移時會導致數(shù)據(jù)無法導出、結(jié)構(gòu)無法識別、格式不兼容等問題,因此可遷移性涉及后期系統(tǒng)升級換代和替換需求。

?運維成本。對于完全本地化的大數(shù)據(jù)工具,其本身的軟硬件更新、擴展,服務(wù)授權(quán),功能變更,危機故障處理等方面的成本也需要考慮。

2.功能特性

功能特性是指大數(shù)據(jù)解決方案在技術(shù)方面的功能特征,包括基本部署、數(shù)據(jù)導入、數(shù)據(jù)存儲、數(shù)據(jù)計算、機器學習、可視化、應用支撐、云服務(wù)、數(shù)據(jù)安全、運維管理等。

?基本部署。支持基于X86的集群方式,支持通過私有云、混合云等方式提供大數(shù)據(jù)服務(wù)。

?數(shù)據(jù)導入。支持SQOOP、Goldengate、Canal、Java-API等技術(shù)實現(xiàn)抽取過程,支持文件、結(jié)構(gòu)化數(shù)據(jù)、JSON、流式數(shù)據(jù)等數(shù)據(jù)類型的抽取。

?數(shù)據(jù)存儲。支持結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的存儲,支持HBase、Hlve、Mongo DB、Redis、關(guān)系型數(shù)據(jù)庫和圖形數(shù)據(jù)庫等,并可提供PB級以上應用服務(wù)的數(shù)據(jù)倉庫。

?數(shù)據(jù)計算。支持離線計算,例如Map Reduce、Hive SQL、Impala SQL、Spark SQL、RHadoop、RSpark、UDF(Hive UDF、Impala UDF)以及實時計算Spark或Storm等。

?機器學習。支持監(jiān)督式學習、非監(jiān)督式學習、增強學習的各種算法,在實現(xiàn)組件或算法庫上支持Mahout、R、Python、MLlib等開源機器學習工具及其中核心算法庫的集成。

?可視化。提供豐富的可視化圖表,除了常規(guī)圖表外還包括玫瑰圖、?;鶊D、熱力圖、樹圖、網(wǎng)絡(luò)圖、平行坐標圖等;支持對開源組件的集成,如Echart、Hchart、D3等;另外,可提供針對商用可視化工具例如Tableau的支持,同時可將報表嵌入到其他報表系統(tǒng)中。

?應用支撐。支持通過IDE、SDK、Web等方式進行應用開發(fā),支持無需編程的文件檢索、數(shù)據(jù)查詢、交互式分析、臨時分析、拖拽式應用等;提供針對應用系統(tǒng)的接口或集成,例如個性化推薦、精準營銷、智能客服、機器翻譯等。

?云服務(wù)。提供多租戶的軟硬件資源和數(shù)據(jù)隔離應用,提供計量計費功能,提供JDBC、ODBC driver等多種驅(qū)動,以SQL的方式訪問大數(shù)據(jù)平臺的數(shù)據(jù)。

?數(shù)據(jù)安全。支持數(shù)據(jù)傳輸通道和數(shù)據(jù)加密等保密機制,企業(yè)級安全認證機制(例如LDAP等),以及SSO驗證;支持數(shù)據(jù)表單元格級別細粒度分析驗證;支持對關(guān)鍵數(shù)據(jù)透明加密,無需修改上層應用,同時加解密過程不會對性能造成影響;支持集中的秘鑰管理功能。

?運維管理。提供基于策略的數(shù)據(jù)備份和恢復功能;提供圖形化、免維護的安裝工具及配置和部署工具;提供統(tǒng)一的集群監(jiān)控分析功能,支持基于事務(wù)和事件的報警等運維管理工作;提供集群配置參數(shù)的多版本管理能力,查看具體的修改內(nèi)容,并支持版本回退;提供REST編程接口,能夠通過調(diào)用編程接口實現(xiàn)集群部署、角色分配、服務(wù)啟動和停止等功能;能夠?qū)崿F(xiàn)業(yè)務(wù)在無中斷的情況下進行軟件版本的升級及打補丁。

3.性能特性

針對不同的技術(shù)組件會有不同的評估指標,例如硬件類、存儲類、計算類、Web事務(wù)類、網(wǎng)絡(luò)類、查詢類等,評估指標主要集中在伸縮性、容錯性、單位時間處理能力、響應時間、吞吐量、并發(fā)性、穩(wěn)定性、資源占用率等方面。

?伸縮性:伸縮性是一種對系統(tǒng)平臺彈性計算處理能力的設(shè)計指標,它是考察平臺對硬件的增減或不同規(guī)模下處理數(shù)據(jù)的自適應能力的重要指標。

?容錯性:容錯性是指在故障存在的情況下計算機系統(tǒng)不失效,仍然能夠正常工作的特性。它是系統(tǒng)在異常情況下能良好運行的重要保障。

?單位時間處理能力:處理能力幾乎是所有組件都需要考察的指標,針對不同的組件其處理能力需要綜合平臺的配置情況,處理任務(wù)包括讀、寫、掃描、排序、連接、聚合、復雜計算等。

?響應時間:響應時間是從發(fā)出請求到得到響應的時間。響應時間越短,對終端計算、應用的實時性和體驗越好。

?吞吐量:吞吐量指在一次性能測試過程中網(wǎng)絡(luò)上傳輸?shù)臄?shù)據(jù)量的總和,它能說明系統(tǒng)級別的負載能力。

?并發(fā)數(shù):并發(fā)數(shù)指系統(tǒng)對同一事務(wù)同時處理的請求數(shù)。并發(fā)數(shù)越高說明系統(tǒng)對事務(wù)在同一時間下的并發(fā)支持度和寬容性越高。

?穩(wěn)定性:穩(wěn)定性是系統(tǒng)在不同場景下運行的穩(wěn)定效果,穩(wěn)定性越好,其可適用的場景越廣泛。

?可靠性:可靠性是在一定時間內(nèi)、一定條件下無故障地執(zhí)行指定功能的能力或可能性,大多數(shù)平臺都會保證至少99.9%的可靠性,或者每年少于幾個小時的故障時間。

?資源占用率:不同的服務(wù)都是基于底層軟硬件資源的支持,在總體資源有限制的情況下,資源占用越少且又能保證平臺的技術(shù)組件或服務(wù)越有優(yōu)勢。

如表3-1所示是某大數(shù)據(jù)產(chǎn)品中存儲和計算部分的性能評估規(guī)格。

表3-1 某大數(shù)據(jù)產(chǎn)品技術(shù)性能規(guī)格

注:該測試結(jié)果基于如下配置:節(jié)點數(shù):12,CPU:2×E5-2650,內(nèi)存:128G,硬盤:SATA盤。

4.服務(wù)特性

大數(shù)據(jù)服務(wù)是當前大多數(shù)企業(yè)付費意愿較低的內(nèi)容,原因是服務(wù)很難有明顯且特別有價值感的落地交付物,它不像一個產(chǎn)品、一個報表那樣可以直接以產(chǎn)品化的方式展示。但服務(wù)對于企業(yè),尤其是剛進入大數(shù)據(jù)階段的企業(yè)至關(guān)重要。大數(shù)據(jù)服務(wù)包括以下幾方面:

?實施部署。服務(wù)商通常需要完成大數(shù)據(jù)系統(tǒng)的搭建、調(diào)試、優(yōu)化、測試,使之能支持企業(yè)客戶基于大數(shù)據(jù)平臺進行應用開發(fā)。

?質(zhì)保服務(wù)。在大數(shù)據(jù)工具交付之后,服務(wù)商需要提供一定時間(例如一年免費升級、三年免費故障解決等)的質(zhì)保服務(wù)。

?技術(shù)咨詢。調(diào)試完成后,對安裝、配置、調(diào)試的所有信息、驗收文檔、交付手冊等向用戶進行全面交接,并提供技術(shù)咨詢。

?駐場開發(fā)。在大數(shù)據(jù)工具實施和開發(fā)階段,客戶可能需要服務(wù)商駐場開發(fā)。

?工具培訓。服務(wù)商需要根據(jù)企業(yè)需求和大數(shù)據(jù)解決方案本身,就實施部署、后期運維、工具開發(fā)、產(chǎn)品應用等方面提供培訓教材并作系統(tǒng)性的推廣培訓工作。

?日常溝通。日常溝通的問題會涉及大數(shù)據(jù)解決方案的各個方面,支持的方式需靈活且多樣(郵件、電話、進駐企業(yè)),對于溝通的效率同時也應該有所要求(2小時答復、7×24小時服務(wù))等。

?應急故障。對于由于服務(wù)商提供的大數(shù)據(jù)工具本身的問題導致的故障問題,服務(wù)商也需要提供針對性的響應機制,包括解決時間、解決策略、實施步驟、質(zhì)量驗收等。

除了上述4個特征需要針對性的分析外,針對大數(shù)據(jù)整體解決方案的整體架構(gòu)、技術(shù)細節(jié)、產(chǎn)品增強點、產(chǎn)品創(chuàng)新點等也是需要評估的關(guān)鍵內(nèi)容。

3.2.5 解決方案費用評估

大數(shù)據(jù)解決方案的費用,主要指的是方案采購本身,而不包括外部其他機房、硬件、人員、設(shè)備等的投入。大數(shù)據(jù)解決方案分為云服務(wù)和本地化兩種。

1.云服務(wù)費用

目前大數(shù)據(jù)解決方案中出現(xiàn)了多種云端服務(wù)模式,例如Iaa S、Oaa S、Paa S、Saa S、Daa S等。不同的模式對應到大數(shù)據(jù)平臺收費方式也有所差異,對云端“解決方案即服務(wù)”類的費用而言,主要費用集中在云端服務(wù)本身。不同的云服務(wù)內(nèi)容對于收費內(nèi)容的定義主要側(cè)重于兩方面:

(1)按服務(wù)配置項目或需求收費

對于不同云服務(wù)的模式,根據(jù)用戶選擇的不同配置情況以及使用的服務(wù)進行收費,適用于彈性用量以及需求變更較大的場景。如圖3-16所示為阿里云存儲服務(wù)計費的方法。

圖3-16 阿里云某云存儲服務(wù)計費

(2)固定/包斷收費

這是一種相對固定的收費方式,根據(jù)用戶選擇的套餐或服務(wù)按照一定周期固定計費。在該方式下服務(wù)的內(nèi)容是有一定限量或限額的,適用于需求和發(fā)展規(guī)劃相對穩(wěn)定且明確的場景。如圖3-17所示為阿里云針對電商的云端整體解決方案收費方法。

圖3-17 阿里云針對電商的云端整體解決方案收費

2.本地化費用

本地化大數(shù)據(jù)解決方案的費用通常由多種內(nèi)容組成,主要包括三大類:硬件費用、產(chǎn)品費用和服務(wù)費用。

?硬件費用:部分大數(shù)據(jù)廠商會將其解決方案與特定硬件做綁定銷售,客觀上這會增加企業(yè)前期購買和后期運維的額外成本;同時,這種“依賴式”的綁定也可能導致軟硬件的一體化封裝,對于后期的功能擴展、性能提升、安全防護等方面造成嚴重阻礙。

?產(chǎn)品費用:不同的大數(shù)據(jù)解決方案中對于產(chǎn)品費用的定義方式是不同的,例如按license收費、按數(shù)據(jù)量和計算量收費、按節(jié)點數(shù)收費、按功能收費、按功能組件收費等,不同的收費模式對應的費用結(jié)構(gòu)也不同;同時,對于按照功能類的收費意味著后期在需要應用某些功能模塊時可能面臨需要支付額外費用的問題。

?服務(wù)費用:服務(wù)費用主要是人力資源類的費用,可能包括技術(shù)開發(fā)人力外包、特定人員駐場、后期使用培訓、關(guān)鍵技術(shù)故障解決、應用場景和模型等方案,這些相對“不標準化”的費用組成與企業(yè)需求、實施難易程度、自身技術(shù)實力、后期運維實際、發(fā)展規(guī)劃等有關(guān)。

大數(shù)據(jù)解決方案的選擇,一定要結(jié)合企業(yè)現(xiàn)有狀態(tài)、需求規(guī)劃(包括短期、中期和長期)、預算、項目目標等,并綜合考慮服務(wù)商的客觀環(huán)境、產(chǎn)品、服務(wù)、預期產(chǎn)出價值等因素進行綜合評估。強大的工具不一定適合所有企業(yè),而且同一個工具也不一定適合于同一個企業(yè)的不同發(fā)展階段。

綜合上述所有內(nèi)容,選擇解決方案時各個因素重要性匯總?cè)绫?-2所示。

表3-2 解決方案選擇要素重要性匯總

(續(xù))

主站蜘蛛池模板: 揭阳市| 绍兴市| 望都县| 博野县| 正定县| 漳平市| 边坝县| 三门县| 平阴县| 百色市| 灵武市| 洪湖市| 铜梁县| 喀喇| 鄯善县| 岚皋县| 上高县| 阿瓦提县| 乌拉特中旗| 垫江县| 铜山县| 马公市| 华坪县| 新余市| 马龙县| 红安县| 容城县| 华亭县| 鄯善县| 敖汉旗| 黄浦区| 东丽区| 繁峙县| 霸州市| 文化| 岢岚县| 扎赉特旗| 泰安市| 邳州市| 门源| 德钦县|