- 云計算和大數據服務:技術架構、運營管理與智能實踐
- 陳赤榕等
- 1100字
- 2023-09-26 15:57:00
1.6 技術運營:從技術升級到服務的實現關鍵
技術運營(Technical Operations)是云服務最重要的關鍵之一,也是本書的重要組成部分。
在國內,技術運營稱為“運維”。實際上,運營的概念比運維的概念要廣泛得多,因為所有的技術和服務,都是為業務(business)而服務的。技術運營涉及客戶滿意度、服務成本和產品創新等。商務運營與技術運營,共同組成了運營(operations)體系,是整個業務的一大部分。
技術運營要確保7×24小時的服務生產運行,要保證數以十萬計的客戶同時得到滿意的服務要求(SLA)。如果沒有強大的技術運營體系的支持,云服務將不再是一個服務,只是一個內部的實驗室的活動。
這部分將會圍繞技術運營的雙維模型框架(見圖1-7)來講解。雙維模型框架是從一線的實踐中總結出來的,最明顯的例子就是,生產線的事故原因,一半來自技術,另一半來自管理。
在技術維度上,我們將講解自動化體系、監控體系、高可用度等技術。
在管理維度上,我們將講解7×24小時生產型服務運營中重要管理流程的原理和實踐。
在雙維模型中,我們將講解橫跨技術與管理這兩個維度的數據能力(智能運營)和安全能力(安全技術與管理)等。

圖1-7 技術運營的雙維模型框架
技術運營是隨著云計算的興起而發展起來的。相比傳統的研發和IT,技術運營是一個非常年輕的技術領域。系統性研究的缺乏和人才的缺乏是這個領域發展的最大瓶頸。在這部分的寫作中,我們根據20年來的實踐,做了比較系統的講解,這也是國內關于云計算的書中在這個領域做系統講解的第一本書。
技術運營部分的寫作起步最早,也是本書中實踐性最強的部分。這部分內容的作者是直接負責技術運營的高管和資深運營團隊成員。下面是我們的一些實踐經驗。
1.雙維模型:一半技術一半管理
這實際是生產的技術運營的第一原則。從統計的數字來看,生產線問題的原因一半來自技術和人員的管理問題,另一半來自技術問題,這也是提出技術運營的雙維模型:“技術+管理”的原因。
2.生產線運營:快速恢復服務是第一要務
生產線運營的目標是盡可能快的恢復服務,而不是找出引起問題的根本原因。這個道理聽上去很簡單,但是在處理事故過程中,絕大部分的工程師們都投入在找問題中,而不是恢復服務中。本書中的7×24小時生產線運營管理的思路就是以這個為前提的。
3.流程的簡單原則(KISS原則)
KISS(Keep It Simple and Straightforward)原則的核心是簡單和直接。在討論管理流程時,有一個事實是沒有人可以避開的,那就是大家不愿接受流程。這是因為流程越多,執行中投入的精力越多,效率也越低。實際上,質量的提高要有流程來保證,而流程的執行必然帶來效率在某種程度上的降低。因此,一個好的運營管理者要善于在其中找到平衡點,比如建立簡單而有效的流程或最佳實踐方法,這也是本書所要達到的目標之一。