官术网_书友最值得收藏!

2.1.1 人員

1.運維能力要求

運維是什么?不同的人對運維有不同的認識和見解。先來看看百度百科對運維的解釋:企業IT部門采用相關的方法、手段、技術、制度、流程和文檔等,對IT軟硬件運行環境、IT業務系統和IT運維人員進行的綜合管理??梢钥闯觯\維是一個綜合性非常強的崗位,不僅需要掌握大量的運維技術與知識,還需要管理、創新等能力。對于剛進企業從事運維工作不久的人來說,對運維的認識往往較為片面,僅限于一些簡單操作性工作的理解,比如應用系統出現故障時快速恢復服務、應用上線前編寫變更腳本、對數據庫進行性能優化等。

運維從狹義上可以理解為“運維技術與資源”,主要包含“監、管、控”,是支撐運營的質量、效率、成本的核心。以下是運維的一些能力要求。

1)運維規范的制定與執行:以TOGAF、COBIT、ITIL、ITSS、SRE、ISO2000、DevOps、敏捷、運維一體化、研運一體化等方法論為基礎,結合行業監管或標準,制定內部運維管理規范,約束運維人員的操作行為。

2)監管政策要求的落實:企業需要理解、快速響應、落地監管機構的管理要求。

3)運維基本保障:運維日常工作中會有類似環境配置、監控策略配置、應用發布作業編排、資源擴容、故障處理與問題排查等保障業務穩定運行的環節。

4)運維對象的使用:運維工作人員需要熟悉IT對象的基礎運維,如網絡、服務器、操作系統、數據庫、中間件、JVM、容器、應用等的基本使用與調優。

5)運維服務能力:在ITIL的理念指導下,運維開始面向客戶、業務側等人員以服務的形式提供其價值,并且以服務級別協議(SLA)保障服務的質量,著重服務臺、業務咨詢、維護、知識庫等支持能力的建設。

6)業務連續性管理:基于業務連續性目標,制訂業務可用性計劃、應急計劃、基礎架構及應用系統的高可用方案、容災架構方案、備件冗余資源計劃等。

7)安全運維能力:通過對運維所有操作進行審計留痕、系統及軟件漏洞的修復、網絡攻擊識別的預防以及數據的防泄漏等方面的工作保障信息安全。

8)故障管理能力:建設完善的事件管理流程與問題管理流程,如對事件分類進行定義、問題的排查與定位等。

9)持續交付能力:為適應敏態業務發展需求,需要快速提供基礎資源、一鍵應用發布工具等。

10)主動優化能力:運維不但需要提供被動保障的服務,還需要輔助業務開發團隊設計應用運行架構以及進行性能優化,提升客戶體驗等。

11)應急演練:為保障業務連續性,需要針對重大系統故障提供應急恢復能力,并根據應用等級設計其高可用架構,通過應急演練不斷提升突發事件響應速度、方案完備性以及人員熟練程度等。

12)業務支撐:根據業務團隊實際需求及安全合規審計,為其提供數據維護、數據提取、參數維護等服務。

13)運行分析能力:通過運維數據分析幫助業務團隊制訂容量計劃,提升應用整體性能以及可用性水平。

14)運營能力:運維需要有輔助業務運營的能力,基于運維視角發現業務痛點并共同制定解決方案,持續提升客戶及業務體驗等。

15)成本控制:運維成本的投入與控制,如針對人力、硬件、帶寬、軟件等資源成本的評估,以及資源優化和精細化管理。

16)運維開發:運維工具體系的規劃與建設,運維開發能力的培養。

不同的企業需要運維的能力有不同的擴展,甚至同一企業在不同的發展階段,由于企業戰略與業務需求的變化,對運維的核心能力要求也會變化。

2.運維組織建設

隨著業務規模的不斷發展,企業對運維人員的要求越來越高,運維組織與崗位的劃分越來越細。在傳統企業中,常見的運維團隊設計如下。

1)機房運維團隊:負責機房和總控中心場所公共環境設施的運維管理,負責各類生產設備硬件系統的建設和運維,負責基礎環境設備及系統硬件設備的維修配件、耗品的需求管理。

?規范制定:負責建立機房環境、硬件系統運維管理流程和工作機制,組織落實相關的風險防范管理措施和技術方案,保障機房環境及硬件系統可用性、可靠性和可維護性。

?機房規劃:負責機房環境規劃建設,制定相關的管理原則、方案和實施流程;負責機房容量規劃、選址擴容等。

?環境管理:負責機房基礎環境系統等各類硬件設備及系統的建立、運維和管理;負責協調、配合相關部門執行機房總控中心場所的水、冷、風、電等公共環境設施的安裝、運維和管理,確保相關設施的安全穩定運行。

?設備維護:負責實施機房各類計算機設備、基礎環境設備及系統各類硬件設備的擴容升級、微碼升級、老化更新、故障修復、維修配件及耗品需求管理,保障機房硬件設備和環境設備的性能與容量滿足信息系統安全生產要求。

?機房安全:負責機房環境日常管理,主要包括機房環境及機房設備的監控、巡檢和日常維護,配合機房門禁管理部門對進入機房的人員進行授權審核和通行管理,確保機房環境安全。

?綜合布線:負責機房綜合布線系統、加密機、加速器及除網絡環境外負載均衡器硬件的安裝調試和日常運維。

2)網絡運維團隊:負責網絡通信建設總體規劃,負責數據中心各類平臺系統環境網絡接入和技術支持,負責網絡管理系統建設及性能優化,負責網絡系統安全防護,保障網絡運營安全。

?規范制定:負責建立企業IT網絡通信系統運維管理流程和工作機制,組織落實網絡通信系統風險防范管理措施和技術方案,保證企業網絡通信系統的可用性、可靠性和可維護性。

?網絡規劃:按照網絡建設的總體架構方案,組織實施企業骨干網、企業邊界接入網絡、企業局域網絡、企業存儲網絡等網絡通信系統建設。

?網絡配置:負責企業各類基礎網絡設備、網絡安全設備、網絡管理工具以及網絡通信線路等的實施、運維和管理。

?網絡監控:負責定制網絡監控系統一體化軟件版本,組織企業網絡升級和運維管理,負責企業工廠網絡軟硬件的部署、運維和管理。

?運行維護:負責企業IT網絡通信的需求受理、技術咨詢和技術支持,負責網絡設備擴容升級、老化更新以及網絡通信線路開通、關閉等需求并組織實施。

3)服務臺團隊:負責24小時全球運維值班人員的管理,組織實施生產事件的應急處置;負責服務臺管理,統一受理和處理客戶服務請求和故障報修;負責總控中心場所及監控系統的配置、實時監控和日常運營管理。

?值班排班:負責建立生產系統24小時現場運維管理機制和工作流程,統籌安排各專業條線、各崗位角色的24小時運維值班人員和排班計劃。

?集中監控:負責各類生產環境和系統的24小時集中實時監控,包括機房環境、網絡通信、硬件設備、系統平臺、中間件、數據庫、應用軟件等層面的運行狀態。

?服務受理:統一受理企業內部用戶服務請求和生產事件報送,提供生產監控事件、服務臺受理的服務請求及問題的一線技術支持,保證生產事件和服務請求的及時有效處理。

?事件跟蹤:負責事件管理,對監控事件、服務臺報送事件實施閉環管理,保證各類事件得到及時、高效、有序處理。

?應急響應:負責生產系統緊急事件的應急響應、組織排查和恢復,負責匯總和報告事件信息等工作。

4)系統運維團隊:負責資產管理,服務器選型、交付和維修,操作系統運維、漏洞補丁、故障修復等。

?資產管理:記錄和管理運維相關的基礎物理信息,包括數據中心、機房機柜、網絡、服務器、IP地址等各種資源信息,制定有效的管理流程,確保信息的準確性,開放接口供運維管理工具使用。

?服務器選型、交付和維修:負責服務器選型與測試,包含服務器安裝部署、部件的基礎性測試、業務兼容性測試,降低整機功率,提升機架部署密度等。

?操作系統運維:負責操作系統的選型、定制和內核優化,以及補丁的更新和版本基線制定與發布;跟進日常各類操作系統相關故障;針對不同的業務類型,提供定向的優化支持。

5)數據庫運維團隊:負責數據存儲方案設計、數據庫表結構設計、索引設計和SQL優化,對數據庫進行變更、監控、備份、架構設計等工作。

?設計評審:在產品研發初始階段,參與設計方案評審,從DBA的角度提出數據存儲方案、庫表設計方案、SQL開發標準、索引設計方案等,使服務滿足數據庫使用的高可用、高性能要求。

?容量規劃:掌握所負責服務的數據庫的容量上限,清楚地了解當前瓶頸點,當服務還未到達容量上限時,及時進行優化、分拆或擴容。

?數據備份與災備:制定數據備份與災備策略,定期完成數據恢復性測試,保證數據備份的可用性和完整性。

?數據庫監控:完善數據庫存活和性能監控,及時了解數據庫運行狀態及故障。

?數據庫安全:建設數據庫賬號體系,嚴格控制賬號權限與開放范圍,降低誤操作和數據泄露的風險;加強離線備份數據的管理,降低數據泄露的風險。

?數據庫高可用和性能優化:對數據庫單點風險和故障設計相應的切換方案,降低故障對數據庫服務的影響;不斷對數據庫整體性能進行優化,包括新存儲方案引進、硬件優化、文件系統優化、數據庫優化、SQL優化等,在保證成本不增加或者少量增加的情況下,數據庫可以支撐更多的業務請求。

6)應用運維團隊:負責線上服務的變更、服務狀態監控、服務容災和數據備份等工作,對服務進行例行排查、故障應急處理等。

?設計評審:在產品研發階段,參與產品設計評審,從運維的角度提出評審意見,使服務滿足運維準入的高可用要求。

?服務管理:負責制訂線上業務升級變更及回滾方案,并進行變更實施。掌握所負責的服務及服務間關聯關系、服務依賴的各種資源。能夠發現服務上的缺陷,及時通報并推進解決。

?資源管理:對各服務的服務器資產進行管理,梳理服務器資源狀況、數據中心分布情況、網絡專線及帶寬情況,能夠合理使用服務器資源,根據不同服務的需求分配不同配置的服務器,確保服務器資源的充分利用。

?例行排查:制定服務例行排查點,并不斷完善。根據制定的服務排查點,對服務進行定期檢查。對排查過程中發現的問題,及時進行追查,排除可能存在的隱患。

?預案管理:確定服務所需的各項監控、系統指標的閾值或臨界點,以及出現該情況后的處理預案;建立和更新服務預案文檔,并根據日常故障情況不斷補充完善,提高預案完備性;制定和評審各類預案,周期性進行預案演練,確保預案的可執行性。

?數據備份:制定數據備份策略,按規范進行數據備份工作;保證數據備份的可用性完整性,定期開展數據恢復性測試。

7)運維安全團隊:負責網絡、系統和業務等方面的安全加固工作,進行常規的安全掃描、滲透測試以及安全事件應急處理,進行安全工具和系統研發。

?安全制度建立:根據公司內部的具體流程,制定切實可行且行之有效的安全制度。

?安全培訓:定期向員工提供具有針對性的安全培訓和考核,在全公司內建立安全負責人制度。

?風險評估:通過黑白盒測試和檢查機制,定期生成對物理網絡、服務器、業務應用、用戶數據等方面的總體風險評估結果。

?安全建設:根據風險評估結果,加固最薄弱的環節,包括設計安全防線、部署安全設備、及時更新補丁、防御病毒、源代碼自動掃描和業務產品安全咨詢等。為了降低可能泄露數據的價值,使用加密、匿名化、混淆數據,乃至定期刪除等技術手段和流程。

?安全合規:承擔安全合規的對外接口工作。

?應急響應:建立安全報警系統,通過安全中心收集第三方發現的安全問題,組織各部門對已經發現的安全問題進行修復、影響面評估、事后安全原因追查。

8)運維管理團隊:負責信息系統生產變更的集中管理和排期,負責組織實施應用系統投產前可用性測試、新項目及新功能上線、版本升級和系統下線,負責運營管理體系的持續改進。

?規范制定:負責建立信息系統生產變更管理規范、流程和工作機制,組織落實信息系統變更管理風險防范的管理措施,組織實施生產變更的集中管理,負責變更的評估、審批、公示和后評價,確保生產變更的安全性和有效性。

?生產調度:負責統一組織和協調企業信息化相關的各項生產活動,包括應用項目投產、系統升級、系統下線、生產維護性活動、災備切換演練及應急演練、特殊日安排等,進行生產環境(含生產、準生產、投產演練和災備環境)、技術資源、時間窗口等各項生產資源的調度和排期,制訂總體工作計劃并控制執行,確保生產任務合規、有序執行。

?投產控制:負責組織實施應用系統投產前的可用性測試,負責應用系統上線及版本升級和系統下線的投產管理,組織和協調投產版本準入控制、投產環境準備、投產前演練等投產準備工作,組織完成投產相關工作。

?資源協調:負責生產活動的對外溝通協調和組織調度。

建立運維組織架構非常重要的一個原則就是“專業層級原則”,即根據運維能力的分類與分級,建立不同專業職能和層級的管理團隊、技術團隊和服務團隊。例如,銀行業的綜合管理部門的生產調度團隊、應用運維團隊、服務臺團隊等。

3.運維組織轉型

運維組織的轉型離不開運維組織架構和體系的變化,康威定律在某種程度上也可以用來指導運維組織架構設計。

?第一定律:組織溝通方式會通過系統設計表達出來。

?第二定律:時間再多,一件事情也不可能做得完美,但總有時間做完一件事情。

?第三定律:線型系統和線型組織架構間有潛在的異質同態特性。

?第四定律:大的系統組織總是比小系統更傾向于分解。

下面先來看看運維技術架構的變化。

1)基于傳統建設方法。通過一個運維管理門戶,將眾多運維系統或工具封裝到這個運維管理門戶中,通過統一身份認證,工具間的URL跳轉來實現一體化運維的表象,但底層的數據無法打通,相應共性組件也無法復用。這只能治標不能治本。

2)基于平臺化建設方法。把通用的運維能力構建在平臺內部,形成各個原子能力模塊,再通過SOA的架構進行封裝,將運維所需的場景功能和平臺的原子能力模塊進行隔離。這樣做的好處在于避免了煙囪式的建設方法,讓運維的數據和功能得到有效的治理。

這兩種運維技術架構或許可以給我們一些啟示。

1)組織溝通方式會通過系統設計表達出來。第一種運維技術架構建設是一種離散式的運維組織溝通方式,每個縱向領域技術組自己進行技術選型,這樣的組織方式就是傳統的方式,公司有不同的運維組,如網絡、操作系統、數據庫、辦公應用、業務應用等,但是每個組相對獨立,這種模式在當前的內外部運維環境下就會遇到問題。

2)企業的運維場景往往需要跨系統、跨流程、跨組織,天然具備個性化、全流程化的特點,這也是當前對運維組織的要求。

3)沒有完美,只有更好。組織的轉型無法一次解決,但是與運營技術架構匹配的組織將帶來更大的效能。

轉型的目標離不開運維的價值呈現,運維需要從運維支撐提升到增值服務,也就是除了穩定,還要考慮能否通過自動化和標準化釋放運維人員。從PaaS化運營技術架構的變化趨勢來看,如果把運維組織當成技術架構來看的話,應該有一個“運維發動機式的組織”,對外輸出運維解決方案,這個組織在PaaS化的技術運營體系下稱為技術運營組,如圖2-2所示。

圖2-2 技術運營協同架構

利用輸出解決方案和工具的方式,提升現有人員日常的運維工作效率,例如把日常巡檢、提數、配置管理等運維操作自動化、標準化,且標準化要體現在簡便的Web交互界面功能上。這樣運維人員就能得到一定程度的解放,他們就可以作為運維組的“甲方”,去仔細思考自己的運維如何更穩定、更高效、更可控。

定義好統一的工具開發或場景構建的標準,并構建起流程式的賦能機制,運維逐步轉向運維開發。不斷提升公司一體化運營平臺的能力,從煙囪式系統建設轉變為平臺化建設,只有這樣,才能實現更為高效的數據化運營和智能運營。

采用自生長式的運營模式,授人以魚不如授人以漁,技術運營組的人員可以為一線運維人員開發工具,或讓一線運維人員利用研運一體化平臺為自己制造工具,從而不斷提升運維人員的水平,同時實現簡單工作的自動化和重復工作的標準化。

主站蜘蛛池模板: 山东省| 龙泉市| 临沧市| 巨野县| 沙田区| 拜泉县| 卢湾区| 长丰县| 额尔古纳市| 塘沽区| 兴城市| 出国| 拜城县| 六盘水市| 安龙县| 台山市| 三明市| 朝阳区| 嘉峪关市| 比如县| 聊城市| 乌兰浩特市| 东乡| 察雅县| 获嘉县| 二连浩特市| 晋宁县| 南江县| 盘锦市| 漳浦县| 上思县| 陵水| 武宁县| 都昌县| 永福县| 阜康市| 廊坊市| 福清市| 蓝山县| 绥德县| 米泉市|