- 企業(yè)大數(shù)據(jù)系統(tǒng)構(gòu)建實戰(zhàn):技術(shù)、架構(gòu)、實施與應(yīng)用
- 呂兆星等
- 7321字
- 2019-01-05 02:09:10
第3章
企業(yè)大數(shù)據(jù)解決方案
企業(yè)在開展大數(shù)據(jù)戰(zhàn)略時,往往面臨多種實施解決方案的路徑可供選擇。由于企業(yè)需求、背景和環(huán)境的不同,所適用的解決方案和實現(xiàn)方式也會有所差異。對大多數(shù)企業(yè)而言,適合企業(yè)的解決方案才是最好的,而非是那些價格最貴、功能最全的。
不同解決方案之間有哪些區(qū)別?它們各自對于企業(yè)的要求和限制條件是什么?企業(yè)應(yīng)該如何根據(jù)自身情況選擇最合適的大數(shù)據(jù)解決方案?本章將重點介紹這些問題。
3.1 企業(yè)大數(shù)據(jù)解決方案實現(xiàn)方式
工欲善其事必先利其器,企業(yè)大數(shù)據(jù)解決方案既包括大數(shù)據(jù)產(chǎn)品和工具層面,又包括服務(wù)層面。企業(yè)大數(shù)據(jù)解決方案根據(jù)實現(xiàn)方式的不同可分為完全獨立研發(fā)、直接購買第三方解決方案和借助第三方的力量進行聯(lián)合開發(fā)三種。
3.1.1 獨立研發(fā)
獨立研發(fā)指的是企業(yè)內(nèi)部通過組建大數(shù)據(jù)中心或部門,獨立進行大數(shù)據(jù)項目的研發(fā)。企業(yè)獨立研發(fā)大數(shù)據(jù)平臺,在數(shù)據(jù)安全、技術(shù)可控、后期擴展等方面具有重要意義。
?數(shù)據(jù)安全:獨立研發(fā)過程中的所有數(shù)據(jù)從輸入端到輸出端的整個流通都在企業(yè)內(nèi)部進行,數(shù)據(jù)不會因為平臺的開發(fā)以及外部人員的介入而產(chǎn)生數(shù)據(jù)安全性問題。
?技術(shù)可控:大數(shù)據(jù)平臺的所有技術(shù)、組件、功能、代碼等均由企業(yè)完全控制,這對于后期架構(gòu)重構(gòu)、代碼優(yōu)化、接口擴展、系統(tǒng)解耦等非常重要。
?后期擴展:獨立研發(fā)的大數(shù)據(jù)方案在應(yīng)對業(yè)務(wù)需求更變、數(shù)據(jù)源增加、數(shù)據(jù)環(huán)境異構(gòu)、系統(tǒng)部署升級、硬件平行擴展等運維過程中,會表現(xiàn)出更好的適應(yīng)性、靈活性和擴展性。
但是,這種方式并不適合所有企業(yè),它對企業(yè)來講具有以下幾個方面的要求和限制:
?技術(shù)要求:要進行完全的獨立開發(fā),對于大數(shù)據(jù)解決方案的所有環(huán)節(jié),例如架構(gòu)、運維、開發(fā)、部署等具有非常高的技術(shù)要求。
?解決問題的能力:在大數(shù)據(jù)解決方案的開發(fā)和落地過程中,會面臨各種挑戰(zhàn)與問題。
有些問題來自于客觀運行環(huán)境,也有些來自于技術(shù)能力和業(yè)務(wù)對接過程中。這就要求大數(shù)據(jù)項目的策劃者和推動者具有較高的分析問題、解決問題的能力。
?時間投入:大數(shù)據(jù)技術(shù)的開發(fā)往往需要一定的人力和時間投入作為保障。與此同時,外部市場環(huán)境的瞬息萬變導(dǎo)致大數(shù)據(jù)項目的價值需求也會與這種時間限定之間產(chǎn)生矛盾,因此企業(yè)也需要有效協(xié)調(diào)二者的關(guān)系。
?資源精力:由于大數(shù)據(jù)解決方案是服務(wù)于企業(yè)所有體系和部門的,因此在實踐過程中需要投入很大的資源和精力進行資源協(xié)調(diào)和利益平衡等;再加上企業(yè)初次實施大數(shù)據(jù)項目時的經(jīng)驗有限,因此在處理這些問題時需要投入的資源更多。
?行業(yè)專家:大數(shù)據(jù)解決方案不是純技術(shù)性的工作,而是結(jié)合了技術(shù)、數(shù)據(jù)和業(yè)務(wù)的全視角方案,這就在客觀上要求企業(yè)內(nèi)部需要有一批了解技術(shù)、數(shù)據(jù)和業(yè)務(wù)的復(fù)合型專家以及各個細分領(lǐng)域的資深帶頭人,這樣才能保證方案落地的可靠性、有效性和價值性。
綜上,獨立自主研發(fā)的方式更適合具有下列特點的企業(yè):企業(yè)內(nèi)部有一批專家、具有非常強的解決問題的能力、較強的技術(shù)實力、充足的資源保障、對大數(shù)據(jù)沒有較強的時間緊迫性要求。除此以外,企業(yè)對于數(shù)據(jù)安全、技術(shù)可控、后期運維方面的需求較為明顯。
3.1.2 第三方解決方案
由于國外市場的開發(fā)性、企業(yè)運營的成熟性以及法律法規(guī)保障的完善性,很多國外的大型企業(yè)尤其是上市公司通常更愿意直接購買成熟的大數(shù)據(jù)解決方案。直接購買第三方成熟的解決方案具有如下優(yōu)勢:
?標準解決方案:利于在內(nèi)部各個辦事處、子公司、子體系內(nèi)的推廣應(yīng)用,整個部署、管理和應(yīng)用都是相對標準化、流程化、規(guī)范化的,符合現(xiàn)代企業(yè)運營的要求。
?彈性付費方式:第三方解決方案尤其是云服務(wù)都允許客戶根據(jù)自身需求進行資源的彈性配置,然后再做彈性付費,這是一種非常靈活的付費方式。
?動態(tài)資源配置:對于企業(yè)大多數(shù)需求的變更,都可以通過靈活的資源設(shè)置來匹配,這是一種簡易且高效的資源配置與供需匹配方式。
?行業(yè)經(jīng)驗積累:很多第三方解決方案都會根據(jù)行業(yè)做聚焦和細分,并推出行業(yè)性的垂直解決方案,提供比較成熟的環(huán)境配套、組件搭配、框架優(yōu)化和應(yīng)用模型等,這對于企業(yè)快速將大數(shù)據(jù)進行成果轉(zhuǎn)化具有極其重要的指導(dǎo)意義。從一定程度上看,不同的大數(shù)據(jù)技術(shù)方案在技術(shù)本身差異不大的前提下,成熟的行業(yè)應(yīng)用和價值落地模型則是企業(yè)大數(shù)據(jù)價值差異化的關(guān)鍵。
?自動化運維服務(wù):基于云平臺的解決方案,服務(wù)供應(yīng)商將提供自動化運維管理能力,這將大幅度降低企業(yè)日后的運維成本。
?可靠的防護體系:安全一直都是IT關(guān)心的焦點之一,云平臺的解決方案服務(wù)提供商都會提供全面的安全解決方案,并通過全方位縱深防御體系來保障云服務(wù)的安全,企業(yè)無需為安全擔(dān)憂。
第三方解決方案在提供了一定的安全性、便利性、可靠性的同時,也會帶來一定的不足:
?無法提供定制化服務(wù):即使能進行彈性配置,前提也是標準化的組件或服務(wù),其中都是將行業(yè)內(nèi)的通用應(yīng)用規(guī)則進行固化,因此無法根據(jù)不同企業(yè)的需求進行定制開發(fā),這在客觀上會限制企業(yè)內(nèi)部個性化需求的實現(xiàn)。
?關(guān)鍵技術(shù)的不可見:第三方解決方案都會對關(guān)鍵技術(shù)、組件等進行封裝或加密處理,使得其中的關(guān)鍵技術(shù)不可見,這將不利于企業(yè)的技術(shù)積累和創(chuàng)新。
?云服務(wù)的可靠性:大多數(shù)的云服務(wù)在正常情況下都會提供相對穩(wěn)定的可靠性,但在某些極端條件下,云服務(wù)的可靠性會面臨巨大考驗。比如,在雙11這樣的大型活動中,某云服務(wù)商會調(diào)用所有可用資源來保障其自身的可靠性,進而會對其他客戶對云平臺服務(wù)的可靠性造成威脅。
?很難進行二次開發(fā):第三方解決方案由于對關(guān)鍵技術(shù)的封裝將嚴重限制企業(yè)根據(jù)自身需求進行二次開發(fā),即使提供了一定的API或REST服務(wù),也只能在既有功能下進行二次調(diào)用。
?云數(shù)據(jù)的安全性:基于云端的大數(shù)據(jù)解決方案應(yīng)用的前提是將數(shù)據(jù)放到云端(通常是第三方服務(wù)平臺),這對于企業(yè)意味著數(shù)據(jù)存在安全隱患和泄露風(fēng)險。對很多大型企業(yè)來講數(shù)據(jù)即企業(yè)機密,尤其是有關(guān)企業(yè)核心競爭力的數(shù)據(jù)將不被允許在企業(yè)外部流通。
綜上,直接采用第三方解決方案更適合希望借助第三方的平臺快速進入大數(shù)據(jù)工作狀態(tài),借助其成熟經(jīng)驗將大數(shù)據(jù)的價值迅速落地,并在后期運維過程中不想投入太多的企業(yè);但對于技術(shù)完全可控、二次開發(fā)需求大、數(shù)據(jù)安全要求高的企業(yè)將不適用。
第三方大數(shù)據(jù)方案服務(wù)商非常多,甚至可以說有一個大數(shù)據(jù)生態(tài)圈。在這個生態(tài)圈中既有能夠?qū)崿F(xiàn)端到端的完整鏈條的整合解決方案,也有側(cè)重于數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)挖掘分析、數(shù)據(jù)可視化等環(huán)節(jié)的垂直型方案。國內(nèi)的服務(wù)提供商包括阿里巴巴、百度、騰訊、華為等,國際大數(shù)據(jù)巨頭包括Amazon、Oracle、SAP、Dell、TERADATA、EMC、Opower、Splunk、Intel、Google、Microsoft、IBM、HP等。
以阿里巴巴為例,阿里巴巴提供的阿里云是中國最成熟也是應(yīng)用最為廣泛的大數(shù)據(jù)解決方案之一。阿里云不僅提供大數(shù)據(jù)方案的服務(wù),更提供了包括云計算、安全、域名與網(wǎng)站等不同服務(wù)。在大數(shù)據(jù)領(lǐng)域,阿里巴巴提供的服務(wù)叫做“大數(shù)據(jù)(數(shù)加)”,其中包括數(shù)據(jù)應(yīng)用、數(shù)據(jù)分析展現(xiàn)、人工智能、大數(shù)據(jù)基礎(chǔ)服務(wù)四類。如圖3-1所示為阿里云大數(shù)據(jù)解決方案內(nèi)容。

圖3-1 阿里云大數(shù)據(jù)解決方案
1.?dāng)?shù)據(jù)應(yīng)用
推薦引擎
推薦引擎(Recommendation Engine,Rec Eng,)是在阿里云計算環(huán)境下建立的一套推薦服務(wù)框架,目標是讓廣大中小互聯(lián)網(wǎng)企業(yè)能夠在這套框架上快速地搭建滿足自身業(yè)務(wù)需求的推薦服務(wù)。
它基于阿里云的一體化部署(Saa S),為推薦業(yè)務(wù)定義了一整套規(guī)范,同時提供了默認算法模板以及自定義功能;支持接入實時日志,以及實時修正API;通過多種測試手段和監(jiān)控方式為業(yè)務(wù)決策提供參考。如圖3-2所示是阿里云的推薦引擎配置界面。

圖3-2 阿里云的推薦引擎
公眾趨勢分析
公眾趨勢分析是基于全網(wǎng)公開發(fā)布數(shù)據(jù),結(jié)合媒體傳播路徑和受眾群體畫像,利用語義分析、情感算法和機器學(xué)習(xí)等大數(shù)據(jù)技術(shù),識別公眾對品牌形象、熱點事件和公共政策的認知趨勢。
它全面覆蓋全網(wǎng)公開的數(shù)據(jù)(千萬源站,每日更新20億網(wǎng)頁),能最快2分鐘級別獲得數(shù)據(jù);通過機器學(xué)習(xí)、自然語言、文本處理的協(xié)同處理等提供精準有效的結(jié)果,結(jié)合分級告警、智能分析、協(xié)同處理和深度集成等為客戶提供豐富的服務(wù)。如圖3-3所示為阿里云公眾趨勢分析報表。

圖3-3 阿里云公眾趨勢分析
數(shù)據(jù)集成
數(shù)據(jù)集成(Data Integration)是阿里巴巴對外提供的穩(wěn)定高效、彈性伸縮的數(shù)據(jù)集成平臺,為阿里云大數(shù)據(jù)計算引擎(包括Max Compute、Analytic DB、OSS)提供離線的批量數(shù)據(jù)進出的通道。有別于傳統(tǒng)的客戶端點對點同步運行工具,數(shù)據(jù)集成本身以公有云服務(wù)為基本設(shè)計目標,集群化、服務(wù)化、多租戶、水平擴展等功能都是其基本實現(xiàn)要求。阿里巴巴自己的采云間、御膳房、聚石塔、孔明燈的后臺數(shù)據(jù)同步均是基于數(shù)據(jù)集成完成各自的數(shù)據(jù)傳輸需求。
目前,數(shù)據(jù)集成支持的數(shù)據(jù)通道包括:關(guān)系型數(shù)據(jù)庫、No SQL數(shù)據(jù)存儲、數(shù)據(jù)倉庫、結(jié)構(gòu)化存儲以及文本,通過離線數(shù)據(jù)同步的模式以讀取Snapshot的方式從源端傳輸?shù)侥康亩恕5壳爸恢С纸Y(jié)構(gòu)化(或可以轉(zhuǎn)換為結(jié)構(gòu)化)的數(shù)據(jù),不支持多個地域之間數(shù)據(jù)同步,本身不提供數(shù)據(jù)流的消費方式,即用戶不能直接通過數(shù)據(jù)集成的API消費數(shù)據(jù)流。如圖3-4所示為阿里云數(shù)據(jù)集成的配置界面。

圖3-4 阿里云數(shù)據(jù)集成配置
移動數(shù)據(jù)分析
移動數(shù)據(jù)分析(Mobile Analytics)是阿里云推出的一款移動App數(shù)據(jù)統(tǒng)計分析產(chǎn)品,提供通用的多維度用戶行為分析,支持日志自主分析,助力移動開發(fā)者實現(xiàn)基于大數(shù)據(jù)技術(shù)的精細化運營、提升產(chǎn)品質(zhì)量和體驗、增強用戶黏性。
移動分析能采集用戶行為和應(yīng)用性能數(shù)據(jù),通過秒級的實時計算,為客戶提供豐富的維度統(tǒng)計報表。同時,它還能通過與移動加速、移動推送、移動域名解析等合力為移動開發(fā)者提供更完善的移動服務(wù)。如圖3-5所示為阿里云移動數(shù)據(jù)分析報告界面。

圖3-5 阿里云移動數(shù)據(jù)分析
提示
阿里巴巴還有另外一套移動數(shù)據(jù)分析產(chǎn)品——友盟,目前友盟已經(jīng)跟締元信網(wǎng)絡(luò)數(shù)據(jù)、CNZZ三家公司合并并統(tǒng)一更名【友盟+】,提供包括針對網(wǎng)站和App的統(tǒng)計分析服務(wù),針對游戲、廣告和線下分析的行業(yè)數(shù)據(jù)解決方案、自助智能分析,針對微社區(qū)、分享和推送的運營工具全域運營指數(shù)和運營報告。
數(shù)據(jù)市場相關(guān)API及應(yīng)用
阿里云允許自身以及第三方企業(yè)通過API的形式提供大數(shù)據(jù)應(yīng)用服務(wù),它的定位是軟件交易及交付平臺,作為2016年阿里云的戰(zhàn)略發(fā)展點,承接著中國云生態(tài)各個鏈條產(chǎn)品的落地。目前,入駐云市場的優(yōu)秀ISV遍布國內(nèi)外,提供圍繞云計算產(chǎn)品的軟件應(yīng)用及服務(wù),包括但不限于基礎(chǔ)軟件、服務(wù)市場、行業(yè)軟件、企業(yè)應(yīng)用、建站市場等。如圖3-6所示為阿里云數(shù)據(jù)市場相關(guān)API及應(yīng)用界面。

圖3-6 阿里云數(shù)據(jù)市場相關(guān)API及應(yīng)用
2.?dāng)?shù)據(jù)分析展現(xiàn)
Data V數(shù)據(jù)可視化
Data V是一個可視化產(chǎn)品組件。相比于傳統(tǒng)圖表與數(shù)據(jù)儀表盤,其可視化致力于用更生動、友好的形式,即時呈現(xiàn)隱藏在瞬息萬變且龐雜數(shù)據(jù)背后的業(yè)務(wù)洞察。Data V提供指揮中心、地理分析、實時監(jiān)控、匯報展示等多種場景模版來幫助客戶解決設(shè)計難題,并通過多種圖表、數(shù)據(jù)源接入、圖形化操作方式滿足開發(fā)和設(shè)計需要,最終在終端適配多分辨率與發(fā)布方式,滿足不同場合下的使用。如圖3-7所示為阿里云Data V數(shù)據(jù)可視化界面。

圖3-7 阿里云Data V數(shù)據(jù)可視化
Quick BI
Quick BI是一個大數(shù)據(jù)商業(yè)智能套件,提供海量數(shù)據(jù)實時在線分析、拖拽式操作、豐富的可視化效果,幫助客戶更快地完成數(shù)據(jù)分析、業(yè)務(wù)數(shù)據(jù)探查。該產(chǎn)品更多地側(cè)重于通過快速的數(shù)據(jù)整合、分析和可視化的方式提供簡易可操作的數(shù)據(jù)分析服務(wù)。
Quick BI內(nèi)置柱狀圖、線圖、餅圖、雷達圖、散點圖等20多種可視化圖表,可通過類似于Excel的操作方式進行多維數(shù)據(jù)分析;整個分析過程都是實時的,支持RDS、Max Compute(原ODPS)、Analytic DB等多種云數(shù)據(jù)源;通過智能加速引擎針對海量數(shù)據(jù)提供秒級響應(yīng)。如圖3-8所示為阿里云Quick BI開始界面。

圖3-8 阿里云Quick BI界面
畫像分析
畫像分析所適用的場景主要是結(jié)合阿里云分析型數(shù)據(jù)庫(Analytics Data Base),將分布在多個存儲資源的數(shù)據(jù)整合起來,在標簽?zāi)P蜕蠘?gòu)建大數(shù)據(jù)畫像類的交互式分析應(yīng)用,讓業(yè)務(wù)人員可以自由靈活地分析這些對象各種屬性與行為之間的關(guān)聯(lián)性。它可以廣泛應(yīng)用于工業(yè)設(shè)備畫像分析、企業(yè)經(jīng)營畫像分析、用戶行為畫像分析等多個場景。
大數(shù)據(jù)畫像類分析基于行為等明細數(shù)據(jù)產(chǎn)生,通過從半結(jié)構(gòu)化數(shù)據(jù)中抽取特征并結(jié)合預(yù)測、評分、文本特征提取等算法技術(shù)來進一步挖掘有效用戶特征。在交互式分析過程中根據(jù)不斷調(diào)整的篩選條件、維度組合、下鉆、上卷能夠快速返回結(jié)果,直到獲取到足夠多的信息。如圖3-9所示為阿里云畫像分析。

圖3-9 阿里云畫像分析
郡縣圖治
“郡縣治,天下安”,區(qū)域發(fā)展亟需響應(yīng)“互聯(lián)網(wǎng)”行動計劃,敏捷應(yīng)對經(jīng)濟新常態(tài)。“郡縣圖治”能夠提供直觀的數(shù)據(jù)可視化技術(shù),整合政府統(tǒng)計數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)源,動態(tài)反映當(dāng)前區(qū)域經(jīng)濟的發(fā)展態(tài)勢,集中呈現(xiàn)當(dāng)?shù)鼗A(chǔ)產(chǎn)業(yè)、特色產(chǎn)業(yè)、內(nèi)需消費特征等各類關(guān)鍵指標,民生經(jīng)濟一覽無余,為宏觀決策提供分析依據(jù)和輔助支撐。“郡縣圖治”基于云計算環(huán)境部署,具備多種可配置參數(shù),由阿里云實時推送互聯(lián)網(wǎng)數(shù)據(jù)分析的結(jié)果,并提供全鏈路維護和自動化升級服務(wù)。如圖3-10所示為阿里“云郡縣圖治”報告。

圖3-10 阿里云“郡縣圖治”
3.人工智能
機器學(xué)習(xí)
阿里云機器學(xué)習(xí)平臺是構(gòu)建在阿里云Max Compute計算平臺之上,集數(shù)據(jù)處理、建模、離線預(yù)測、在線預(yù)測為一體的機器學(xué)習(xí)平臺。該平臺為算法開發(fā)者提供了豐富的MPI、PS、BSP等編程框架和數(shù)據(jù)存取接口,同時為算法使用者提供了基于Web的IDE可視化實驗搭建控制臺。
它是一站式的算法與智能應(yīng)用的開發(fā)、發(fā)布與分享的平臺,所有工作都在一個平臺上完成,減少了多平臺轉(zhuǎn)換、遷移、集成等繁瑣問題;支持處理億萬級大規(guī)模數(shù)據(jù),適用于絕大多數(shù)企業(yè)數(shù)據(jù)規(guī)模;基于工作流的思路,通過簡單的拖拽即可完成數(shù)據(jù)挖掘、數(shù)據(jù)分析等功能。如圖3-11所示為阿里云機器學(xué)習(xí)平臺工作流操作界面。

圖3-11 阿里云機器學(xué)習(xí)平臺
智能語音交互
智能語音交互(Intelligent Speech Interaction),是基于語音和自然語言技術(shù)構(gòu)建的在線服務(wù),通過提供語音識別(ASR)、語音合成(TTS)、自然語言理解(NLU)為智能手機、智能電視以及物聯(lián)網(wǎng)等產(chǎn)品提供“能聽、會說、懂你”式的智能人機交互體驗。
智能語音交互提供的三類服務(wù):
?語音識別(ASR):它可以將語音轉(zhuǎn)換成文字,支持多軌WAV格式的長語音文件識別、8k A-Law WAV、16k A-Law WAV、8k 16bit PCM、16k 16bit PCM的格式,但目前語音只能識別普通話。
?語音合成(TTS):它提供的是將文字轉(zhuǎn)換為聲音的能力。
?自然語言理解(NLU):集語義解析、智能問答、意圖識別等功能于一體,讓應(yīng)用具備理解能力。
印刷文字識別
印刷文字識別是OCR(Optical Character Recognition,光學(xué)字符識別)的具體應(yīng)用,它提供了包含多種場景下的文字識別,其中包括身份證證件識別、駕駛證識別、行駛證識別、營業(yè)執(zhí)照識別、門店招牌識別、英文識別。
人臉識別
人臉服務(wù)是一款用于提供圖像和視頻幀中人臉分析的在線服務(wù),通過提供人臉檢測、人臉特征提取、人臉年齡估計和性別識別、人臉關(guān)鍵點定位等,可應(yīng)用于人臉美化、人臉識別和認證、大規(guī)模人臉檢索、照片管理等各種場景。
通用圖像識別
通用圖像分析服務(wù)是一款用于提供圖像內(nèi)容分析和理解的在線服務(wù)產(chǎn)品。“通用”一詞是指,在該服務(wù)中提供的算法API模塊可以應(yīng)用于各種圖像領(lǐng)域,沒有具體業(yè)務(wù)場景、垂直領(lǐng)域等場景限制。該服務(wù)旨在提供一些通用的圖像分析和理解算法API模塊,開發(fā)者和企業(yè)可以通過這些模塊組合,結(jié)合自身領(lǐng)域特點,獨立開發(fā)圖像分離和理解系統(tǒng),滿足自身特定需求。
電商圖像分析
電商圖像分析服務(wù)是一款用于提供電商平臺環(huán)境下的圖像分析的在線服務(wù)產(chǎn)品。該產(chǎn)品提供若干圖像分析和理解技術(shù)的在線API服務(wù)給開發(fā)者和企業(yè)使用,其中包括牛皮癬圖像識別、圖像背景分析、炒信圖像識別等獨立服務(wù)模塊。這些獨立技術(shù)模塊可應(yīng)用于電商平臺下的商品主圖、副圖等質(zhì)量判斷、選品投放過濾、搜索和推薦等業(yè)務(wù)場景。
機器翻譯
機器翻譯(Machine Translation)通過阿里巴巴的海量電商數(shù)據(jù),結(jié)合機器學(xué)習(xí)、自然語言處理技術(shù),實現(xiàn)多語言語種識別與自動翻譯功能,為跨境電商信息本地化與跨語言溝通提供精準、快捷、可靠的在線翻譯服務(wù)。
4.大數(shù)據(jù)基礎(chǔ)服務(wù)
大數(shù)據(jù)開發(fā)套件
大數(shù)據(jù)開發(fā)套件(Data IDE)是阿里巴巴集團推出的大數(shù)據(jù)領(lǐng)域平臺級產(chǎn)品,它提供了一站式大數(shù)據(jù)開發(fā)、管理、分析、挖掘、共享、交換等端到端的解決方案,其利用Max Compute(原名ODPS)在幾分鐘內(nèi)可將原始數(shù)據(jù)轉(zhuǎn)變?yōu)闃I(yè)務(wù)洞察的海量數(shù)據(jù)處理能力,整個過程都是通過對可視化組件的拖拽來實現(xiàn)。如圖3-12所示為阿里云大數(shù)據(jù)開發(fā)套件配置界面。

圖3-12 阿里云大數(shù)據(jù)開發(fā)套件
大數(shù)據(jù)計算服務(wù)
大數(shù)據(jù)計算服務(wù)(Max Compute,原名ODPS)是一種快速、完全托管的TB/PB級數(shù)據(jù)倉庫解決方案。Max Compute主要服務(wù)于批量結(jié)構(gòu)化數(shù)據(jù)的存儲和計算,可以提供海量數(shù)據(jù)倉庫的解決方案以及針對大數(shù)據(jù)的分析建模服務(wù)。Max Compute已經(jīng)在阿里巴巴集團內(nèi)部得到大規(guī)模應(yīng)用,例如:大型互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)倉庫和BI分析、網(wǎng)站的日志分析、電子商務(wù)網(wǎng)站的交易分析、用戶特征和興趣挖掘等。如圖3-13所示為大數(shù)據(jù)計算服務(wù)界面。

圖3-13 阿里云大數(shù)據(jù)計算服務(wù)
分析型數(shù)據(jù)庫
阿里云分析型數(shù)據(jù)庫(原名:分析數(shù)據(jù)庫服務(wù)ADS),則是一套RT-OLAP(Realtime OLAP,實時OLAP)系統(tǒng)。在數(shù)據(jù)存儲模型上,采用自由靈活的關(guān)系模型存儲,可以使用SQL進行自由靈活的計算分析,無需預(yù)先建模,而利用云計算技術(shù),分析型數(shù)據(jù)庫可以在處理百億條甚至更多量級的數(shù)據(jù)上達到甚至超越MOLAP類系統(tǒng)的處理性能,實現(xiàn)百億數(shù)據(jù)毫秒級計算。如圖3-14所示為阿里云分析型數(shù)據(jù)庫使用界面。

圖3-14 阿里云分析型數(shù)據(jù)庫
批量計算
批量計算(Batch Compute)是一種適用于大規(guī)模并行批處理作業(yè)的分布式云服務(wù)。Batch Compute可支持海量作業(yè)并發(fā)規(guī)模,系統(tǒng)自動完成資源管理、作業(yè)調(diào)度和數(shù)據(jù)加載,并按實際使用量計費。如圖3-15所示為阿里云批量計算作業(yè)配置。

圖3-15 阿里云批量計算
3.1.3 聯(lián)合開發(fā)
聯(lián)合開發(fā)是一種介于上述兩種解決方案的折中方式,它是企業(yè)與第三方服務(wù)商一起進行大數(shù)據(jù)解決方案開發(fā)的方式。這種方式能融合二者的優(yōu)點,并對缺點進行有效補足:
?技術(shù)可控性強。聯(lián)合開發(fā)過程中所有的源代碼都是對企業(yè)開放的,有利于企業(yè)自身技術(shù)積累和技術(shù)創(chuàng)新;另外,基于對產(chǎn)品的完全可控性,企業(yè)也可以借此申請技術(shù)和產(chǎn)品專利,這對于增強企業(yè)核心競爭力、增加行業(yè)進入壁壘、提高市場覆蓋規(guī)模、提高企業(yè)技術(shù)高度具有非常高的戰(zhàn)略價值。
?數(shù)據(jù)安全性高。聯(lián)合開發(fā)都是完全在企業(yè)內(nèi)部封閉進行的,這將有效保障企業(yè)數(shù)據(jù)安全。
?開發(fā)周期較短。借助于第三方服務(wù)商的成熟經(jīng)驗,可以在架構(gòu)設(shè)計、代碼開發(fā)、測試上線、后期運維中提供非常多的寶貴經(jīng)驗,甚至很多大型第三方服務(wù)商還提供了可供二次開發(fā)的“半成品”類的大數(shù)據(jù)產(chǎn)品、組件和服務(wù),這些都能夠極大地縮短開發(fā)周期。
?二次開發(fā)靈活。正是由于所有的代碼完全由企業(yè)掌控,企業(yè)在后期二次開發(fā)、升級和個性化定制過程中具有了完全自主性。
?價值落地較快。第三方服務(wù)商可提供成熟的價值落地場景和數(shù)據(jù)應(yīng)用模型,并且可以根據(jù)企業(yè)數(shù)據(jù)規(guī)劃和需求提供更新、更個性化的價值落地應(yīng)用,極大地促進了大數(shù)據(jù)價值落地。
綜上,聯(lián)合開發(fā)方式更適合那些想要對數(shù)據(jù)、技術(shù)完全可控,并且將大數(shù)據(jù)戰(zhàn)略作為重要發(fā)展戰(zhàn)略和核心競爭力的企業(yè),這些企業(yè)通常內(nèi)部已經(jīng)具有一定的技術(shù)實力、較多的行業(yè)專家、相對明確的數(shù)據(jù)規(guī)劃和預(yù)期。
- 大數(shù)據(jù)技術(shù)基礎(chǔ)
- SQL Server 2016 數(shù)據(jù)庫教程(第4版)
- Python絕技:運用Python成為頂級數(shù)據(jù)工程師
- 劍破冰山:Oracle開發(fā)藝術(shù)
- Voice Application Development for Android
- Sybase數(shù)據(jù)庫在UNIX、Windows上的實施和管理
- OracleDBA實戰(zhàn)攻略:運維管理、診斷優(yōu)化、高可用與最佳實踐
- The Game Jam Survival Guide
- “互聯(lián)網(wǎng)+”時代立體化計算機組
- R語言數(shù)據(jù)挖掘
- SAS金融數(shù)據(jù)挖掘與建模:系統(tǒng)方法與案例解析
- 深入理解InfluxDB:時序數(shù)據(jù)庫詳解與實踐
- Visual Studio 2012 and .NET 4.5 Expert Development Cookbook
- 云原生架構(gòu):從技術(shù)演進到最佳實踐
- 成功之路:ORACLE 11g學(xué)習(xí)筆記