官术网_书友最值得收藏!

2.2.3 數(shù)據(jù)化驅(qū)動(dòng)

1.什么是數(shù)據(jù)化運(yùn)維

20世紀(jì)初期,移動(dòng)互聯(lián)網(wǎng)開始萌芽發(fā)展,如今各式各樣的App已經(jīng)滲透到我們工作和生活的各個(gè)領(lǐng)域。對于企業(yè)來說,供應(yīng)、研發(fā)、制造、銷售、運(yùn)營等環(huán)節(jié)涉及的IT系統(tǒng)則更加廣泛。隨著用戶的多元化需求,企業(yè)IT系統(tǒng)及應(yīng)用的復(fù)雜程度和數(shù)量呈現(xiàn)急增的趨勢,也促使IT運(yùn)維管理系統(tǒng)的增加,運(yùn)維系統(tǒng)采集的數(shù)據(jù)種類和數(shù)據(jù)量同步激增。

對傳統(tǒng)企業(yè)來說,監(jiān)控系統(tǒng)呈現(xiàn)分散的狀態(tài),而在一些復(fù)雜的運(yùn)維場景如故障定位、服務(wù)優(yōu)化、服務(wù)管理等中,常常在需要一些關(guān)鍵數(shù)據(jù)作為輔助決策時(shí),才發(fā)現(xiàn)缺少相應(yīng)的數(shù)據(jù)支撐。隨著時(shí)間的推進(jìn),傳統(tǒng)的IT運(yùn)維監(jiān)控系統(tǒng)已難以支撐企業(yè)業(yè)務(wù)發(fā)展的需要。在技術(shù)的變革演進(jìn)過程中,新一代IT監(jiān)控運(yùn)維系統(tǒng)以應(yīng)用為中心,逐漸開始將運(yùn)維工作的重心進(jìn)行轉(zhuǎn)移,從工具建設(shè)聚集到數(shù)據(jù)建設(shè),以數(shù)據(jù)驅(qū)動(dòng)運(yùn)維,運(yùn)維走向數(shù)據(jù)化的時(shí)代。

簡單來說,數(shù)據(jù)化運(yùn)維是以數(shù)據(jù)架構(gòu)為基礎(chǔ),以分析為手段,采集全領(lǐng)域相關(guān)的運(yùn)維數(shù)據(jù),從而達(dá)到掌握運(yùn)維過程、衡量運(yùn)維目標(biāo)的目的。以提升服務(wù)質(zhì)量為例,當(dāng)遇到系統(tǒng)運(yùn)行變慢的時(shí)候,用戶體驗(yàn)就會(huì)變得越來越差,一線運(yùn)維人員會(huì)第一時(shí)刻想到優(yōu)化擴(kuò)容,但是提升服務(wù)質(zhì)量并不意味著一味地付出更多的資源成本。數(shù)據(jù)化運(yùn)維更關(guān)注以下問題:現(xiàn)有的業(yè)務(wù)資源是否能夠支撐未來業(yè)務(wù)的持續(xù)增長?業(yè)務(wù)擴(kuò)容方案的設(shè)計(jì)與評估的標(biāo)準(zhǔn)是什么?有沒有關(guān)鍵的數(shù)據(jù)作為支撐?數(shù)據(jù)是否具備說服力?這些都是運(yùn)維數(shù)字化時(shí)代需要思考的問題。

數(shù)據(jù)運(yùn)維驅(qū)動(dòng)可以定義為一種運(yùn)維的新方法,它通過數(shù)據(jù)化更清晰地識(shí)別運(yùn)維目標(biāo)的達(dá)成情況,借助數(shù)據(jù)評價(jià)體系來衡量運(yùn)維過程的有效性。在數(shù)據(jù)化建設(shè)過程中通常會(huì)遇到以下問題:數(shù)據(jù)化運(yùn)維的核心目標(biāo)是什么?數(shù)據(jù)分析體系是什么樣的?如何建設(shè)?最終又如何反作用于運(yùn)維過程?我們運(yùn)維的日常場景非常繁雜,但其實(shí)最終都會(huì)有其對應(yīng)的目標(biāo)作為導(dǎo)向,比如:IT系統(tǒng)產(chǎn)品的質(zhì)量追求,運(yùn)維的效率提升,運(yùn)維成本的降低,業(yè)務(wù)連續(xù)性的要求等。業(yè)務(wù)應(yīng)用集群提供的是面向用戶的服務(wù),而服務(wù)質(zhì)量的好壞必須先傳遞到運(yùn)維側(cè),通過付出更多的資源成本進(jìn)行觀測。在數(shù)據(jù)化運(yùn)維能力的支撐下,我們可以更科學(xué)地評估用戶服務(wù)規(guī)模和容量,以更好地適應(yīng)業(yè)務(wù)的擴(kuò)張。

2.什么數(shù)據(jù)可以驅(qū)動(dòng)運(yùn)維

面對運(yùn)維的核心價(jià)值與目標(biāo),我們需要明確什么數(shù)據(jù)能識(shí)別當(dāng)前的運(yùn)維狀態(tài),此時(shí)就需要使用運(yùn)維大數(shù)據(jù)的能力進(jìn)行分析。開始時(shí)可以采集全量的運(yùn)維數(shù)據(jù),不需要考慮哪些數(shù)據(jù)才是需要的,數(shù)據(jù)歸集后需要對數(shù)據(jù)進(jìn)行清洗和識(shí)別,找到數(shù)據(jù)之間的依賴關(guān)系。其中一個(gè)有效的方法就是從用戶訪問流出發(fā),看具體的用戶請求經(jīng)過了哪些資源和服務(wù),然后統(tǒng)一采集這些系統(tǒng)產(chǎn)生的相關(guān)數(shù)據(jù)。數(shù)據(jù)的初步歸類如下。

(1)面向用戶

設(shè)備端是非常重要的數(shù)據(jù)采集點(diǎn),從設(shè)備端采集回來的數(shù)據(jù)能直接反映用戶對產(chǎn)品的感知情況。從用戶側(cè)來說,通常我們可以看到兩類數(shù)據(jù):一類是面向技術(shù)運(yùn)營人員的,另一類是面向產(chǎn)品運(yùn)營人員的。在數(shù)據(jù)驅(qū)動(dòng)運(yùn)維的實(shí)踐中,一方面可以采集面向技術(shù)人員的數(shù)據(jù)指標(biāo),另一方面可以少量采集產(chǎn)品側(cè)的數(shù)據(jù)。

(2)面向資源

向用戶提供產(chǎn)品和服務(wù)的時(shí)候,后臺(tái)有很多的資源在支撐,包括人力資源、帶寬資源、存儲(chǔ)資源、計(jì)算資源、IDC資源、機(jī)柜資源等,可以看出資源的對象非常多。為了更好地識(shí)別并管理這些資源對象,企業(yè)常規(guī)的做法就是建設(shè)一套CMDB系統(tǒng)。在建設(shè)CMDB系統(tǒng)的時(shí)候,需使用以業(yè)務(wù)為導(dǎo)向、以應(yīng)用為中心的方法,對所有資源實(shí)例進(jìn)行識(shí)別,以業(yè)務(wù)維度進(jìn)行相關(guān)資源實(shí)例指標(biāo)的采集,如帶寬使用率、CPU使用率、內(nèi)存使用率、磁盤IO使用率、數(shù)據(jù)庫讀寫峰值等,這些指標(biāo)決定著服務(wù)的支撐能力。我們可以建立標(biāo)準(zhǔn)的容量模型來計(jì)算資源的飽和度,同時(shí)可以設(shè)定業(yè)務(wù)資源的容量模型,確保支撐的業(yè)務(wù)規(guī)模大小。在面向用戶的數(shù)據(jù)采集中,我們還可以采集部分的業(yè)務(wù)數(shù)據(jù),根據(jù)業(yè)務(wù)的增長趨勢進(jìn)一步去看未來的資源容量需求。

(3)面向公共服務(wù)

公共服務(wù)是指常見的DNS服務(wù)、文件服務(wù)、緩存服務(wù)、負(fù)載均衡服務(wù)、隊(duì)列服務(wù)等,比如分布式存儲(chǔ)、Redis緩存等,是一種面向應(yīng)用的基礎(chǔ)資源能力封裝。在CMDB中,服務(wù)也是一種特別的資源,因?yàn)樗年P(guān)鍵特征、數(shù)據(jù)采集方式、表現(xiàn)形式都與傳統(tǒng)資源截然不同。不同的服務(wù)關(guān)注的指標(biāo)有所不同。比如DNS服務(wù),它關(guān)注的核心指標(biāo)是解析成功率和解析時(shí)間,并且關(guān)注各地LDNS的解析次數(shù),甚至還關(guān)注變更后解析異常情況等。Redis、MySQL、分布式文件存儲(chǔ)等服務(wù),所需要關(guān)注的指標(biāo)都不同。

(4)面向接口

當(dāng)用戶對頁面發(fā)出請求或與客戶端連接之后,都會(huì)轉(zhuǎn)換到業(yè)務(wù)內(nèi)部分布式系統(tǒng)之間進(jìn)行大量的相互調(diào)用。分布式系統(tǒng)的典型特征不是函數(shù)式的內(nèi)部訪問,而是RPC的遠(yuǎn)程調(diào)用方式,因此對這類接口訪問數(shù)據(jù)的采集顯得尤為重要。接口數(shù)據(jù)有很多和其他對象指標(biāo)不同之處:第一,數(shù)據(jù)量非常大,因此一般使用抽樣采集,但在關(guān)注某些關(guān)鍵指標(biāo)的情況下,需要全量模式;第二,實(shí)施難度巨大,不同的編程語言或者不同的RPC調(diào)用模型,采集的方式都大不相同,需要開發(fā)人員的深度配合;第三,采集數(shù)據(jù)的分析難度大,由于數(shù)據(jù)量大造成使用傳統(tǒng)的技術(shù)方法和分析模型難以應(yīng)對,需要使用運(yùn)維大數(shù)據(jù)分析技術(shù);第四,數(shù)據(jù)價(jià)值明顯,在故障發(fā)現(xiàn)和系統(tǒng)優(yōu)化等運(yùn)維場景中,這個(gè)數(shù)據(jù)最具有說服力,直接體現(xiàn)出用戶服務(wù)的好壞;第五,數(shù)據(jù)采集模型最容易統(tǒng)一,關(guān)注的核心指標(biāo)是服務(wù)訪問的延時(shí)、失敗率等,再加上服務(wù)實(shí)例之間的描述信息。

(5)面向整合

當(dāng)我們采集了上述4類數(shù)據(jù)之后,會(huì)發(fā)現(xiàn)這些數(shù)據(jù)都屬于離散狀態(tài),而非關(guān)聯(lián)的狀態(tài)。用關(guān)聯(lián)的視角,例如從業(yè)務(wù)拓?fù)洹⑽锢硗負(fù)浼坝脩粼L問流三個(gè)角度去看,整合之后的數(shù)據(jù)才能體現(xiàn)數(shù)據(jù)的核心價(jià)值。數(shù)據(jù)關(guān)聯(lián)也給提煉核心數(shù)據(jù)價(jià)值帶來一定的困擾,由于數(shù)據(jù)的多樣化帶來的干擾,因此需要回歸數(shù)據(jù)使用消費(fèi)場景才能識(shí)別出數(shù)據(jù)價(jià)值。還有一種數(shù)據(jù)整合方式,是在用戶的實(shí)際訪問流中通過字段豐富的機(jī)制來實(shí)現(xiàn)數(shù)據(jù)采集,這樣的數(shù)據(jù)對故障定位的意義非常大。通過字段豐富的機(jī)制,看用戶在內(nèi)部服務(wù)之間的請求歷史,尋找故障根源點(diǎn),快速發(fā)現(xiàn)問題的所在。

3.數(shù)據(jù)化運(yùn)維開展方向

“數(shù)據(jù)驅(qū)動(dòng)運(yùn)維”戰(zhàn)略圍繞以下幾個(gè)方面展開。

1)感知能力。在數(shù)據(jù)中心的建設(shè)過程中,可以應(yīng)用數(shù)字孿生技術(shù),把運(yùn)維對象數(shù)字化,構(gòu)建可視化的界面。運(yùn)維人員通過界面可以直觀看到系統(tǒng)的運(yùn)行狀況。同時(shí),監(jiān)控平臺(tái)覆蓋了運(yùn)維全領(lǐng)域,擁有維度豐富的數(shù)據(jù),再通過智能運(yùn)維算法智能發(fā)現(xiàn)故障,對數(shù)據(jù)中心整個(gè)運(yùn)行組件做到全感知。

2)決策能力。人工決策單純依賴的是運(yùn)維專家的經(jīng)驗(yàn),對數(shù)據(jù)中心來說很重要。數(shù)字化時(shí)代下,需要采用“可視化+專家大腦”去代替部分的人工決策,同時(shí)通過“大數(shù)據(jù)+機(jī)器學(xué)習(xí)”來做智能決策。

3)執(zhí)行能力。有感知有決策,但當(dāng)服務(wù)質(zhì)量有所下降或出現(xiàn)故障的時(shí)候,要怎么去恢復(fù)服務(wù)、減少故障恢復(fù)時(shí)間?這就需要在執(zhí)行能力方面下功夫。建設(shè)了標(biāo)準(zhǔn)化流程、標(biāo)準(zhǔn)化動(dòng)作、標(biāo)準(zhǔn)化場景,之后再通過自動(dòng)化運(yùn)維系統(tǒng)固化起來,這樣在出現(xiàn)對應(yīng)故障的時(shí)候,可以采用一鍵恢復(fù)的方式來提高問題處理的效率。

4)數(shù)據(jù)底座。要建設(shè)上面提到的3種能力,數(shù)據(jù)底座是基礎(chǔ)。前面提到,運(yùn)維工具很多,數(shù)據(jù)很豐富,但因?yàn)椤皵?shù)據(jù)孤島”加上數(shù)據(jù)維度龐雜,構(gòu)建統(tǒng)一的運(yùn)維數(shù)據(jù)中臺(tái)作為底座就非常重要。

5)組織轉(zhuǎn)型。數(shù)據(jù)中心有各個(gè)領(lǐng)域的技術(shù)專家,網(wǎng)絡(luò)專家精于網(wǎng)絡(luò)知識(shí),系統(tǒng)專家負(fù)責(zé)系統(tǒng)知識(shí),所擅長的領(lǐng)域各不相同。而采用智能運(yùn)維的方式時(shí),運(yùn)維感知和決策建立在數(shù)據(jù)的基礎(chǔ)上,這時(shí)候就需要組織做相應(yīng)的轉(zhuǎn)型。采用Google SRE的理念來提高運(yùn)維開發(fā)能力,提升運(yùn)維效率。

主站蜘蛛池模板: 玉环县| 启东市| 织金县| 普陀区| 米林县| 满洲里市| 西林县| 慈溪市| 方城县| 唐海县| 南阳市| 岑巩县| 合阳县| 乌兰县| 台东县| 临城县| 樟树市| 永嘉县| 河北省| 芒康县| 皮山县| 兰西县| 淅川县| 洪江市| 右玉县| 小金县| 宁安市| 拉孜县| 祁阳县| 南丰县| 郁南县| 五台县| 泰宁县| 孝感市| 肥西县| 建德市| 中宁县| 浮梁县| 会同县| 屏南县| 新和县|