- 自動駕駛網絡:自智時代的網絡架構
- 黨文栓主編
- 3160字
- 2023-07-31 17:37:08
1.2.1 網絡運營與運維效率
雖然電信網絡在不斷演進,網絡運營和運維工作也跟隨著調整,但是經過多年發展,當前仍然存在一些問題。高德納(Gartner)調查報告統計的網絡運維問題如圖1-3所示。75%的網絡問題都是由最終用戶感知和發現的,并通過投訴向運營商反饋問題,客戶體驗和滿意度很難得到保證;37%的網絡故障是由網絡變更造成的,當前網絡結構越來越復雜,網絡的運維管理已遠超人的能力;運維人員90%的時間都用來識別故障產生的原因,運維效率低。

圖1-3 網絡運維問題
電信網絡運營商都想改變這些現狀,而改變這些現狀,首先需要深刻認識到這些問題的本質。是什么導致了這些問題呢 ?問題并不是單點導致的,這需要從運營商龐大的運營和運維的組織、流程與支撐平臺來綜合看待。
下面通過3個方面,逐步展開對問題及其根本原因的分析和闡述。
第一個方面,網絡復雜度增加,導致運營和運維的難度呈幾何級數增加,已經超越了人的能力范疇。
雖然用戶在使用網絡時基本是無感的,但是在網絡的背后,有大量的運營、運維人力在持續不斷投入。網絡涉及由接入網到城域網、骨干網、核心網等相當長的鏈條,整個網絡上業務的設計上線、開通和維護,均需要大量人力、系統協同完成。運維人員面臨的困難是怎樣的呢?以下從業務、網絡技術、網絡參與角色3個維度呈現電信網絡的復雜性。
業務維度。電信網絡具有多業務、多客戶體驗管理的復雜性。一張電信網絡上跑著多種客戶業務,例如家庭寬帶、個人手機、企業專線等,不同客戶的不同業務要實現自動化運行的外部約束各不相同,因此網絡系統要能理解不同客戶、不同業務的動機和意圖。
即使對于無線網絡領域,也可能有2G/3G/4G/5G等多代并存,各自服務著不同客戶。無線網絡的可調參數,在3G、4G時代通過“堆人”的方式還勉強能支撐,但到了5G,其可調參數數量高達2000個,其維護難度已經完全非人的能力所能承受得了,必須借助系統來完成準確的參數調整工作。
在垂直行業的網絡領域,各類行業客戶也有不同的定制訴求,成千上萬的差異化業務訴求,需要運營和運維人員同時掌握相關行業知識,這幾乎是不可能完成的任務。
網絡技術維度。電信網絡存在多網絡技術領域、超網絡技術領域的復雜性。電信網絡既有數據中心網絡這種集中的結構化網絡,也有區域分布的IP和園區網絡,還有海量的末端覆蓋的固定接入FTTx(Fiber To The x,光纖到x)和無線網絡。
預計在不久的將來,網絡將出現超分布、空天地海一體化的情形。在產業難題方面,隨著5G成為重要的ICT基礎設施,全球將迎來一個超分布式的大規模復雜網絡,再加上超分布網絡與計算的深度融合,這將使網絡架構的演進和整合成為世界性難題,這也將推動產業界團結一致、共同解決。
網絡參與角色維度。電信網絡全生命周期的運營涉及的角色復雜,多種運營和運維角色同時接觸網絡,人員繁多。以某運營商為例,從網絡規劃建設開始,有設計人員、督導人員、施工人員、監理人員會與這張網產生聯系。這些人與系統相互交互,讓運營、運維關系更加復雜,也更容易出錯。
所以,面對如此有難度的網絡運營和運維工作,必須改變工作模式,引入自動化、智能化的技術,提升網絡本身解決問題、簡化問題的能力,將人從這“泥潭”中拯救出來。
第二個方面,網絡規模持續增長,而人力主要投入到簡單、重復的低效工作中,沒有精力投入到高價值的工作(如營銷策略、網絡規劃、風險分析、優化等)中,受OPEX限制,人力相對不足,導致只能被動應對客戶投訴,無法主動運維。
GSMA(Global System for Mobile Communications Association,全球移動通信系統協會)發布的《2022 中國移動經濟發展》[2]報告顯示,2021年全球物聯網總連接數已達到 151 億,預計到 2025 年將增至 233 億。面向2030年,通信網絡將從連接百億人向連接千億物的方向發展。隨著網絡規模及數據量的不斷增大,故障發生頻率將會更高,當前被動式、沒有閉環化的運維難以滿足用戶對網絡穩定性的訴求,且目前市場競爭激烈、獲客成本攀升,容易導致用戶更快流失,從而帶來更嚴重的經濟損失。如果不能扭轉這種被動的局面,運營商必然陷入惡性循環的“泥潭”。
2021年在上海舉辦的世界移動通信大會上,中國移動副總經理李慧鏑講述道:“為了運營好全球網絡規模最大、結構最復雜、設備廠商最多的移動網絡,中國移動部署了5.9萬名網絡運維人員,年投入約1400億元網絡運維費用。面對提升網絡質量和降低運營成本的雙重壓力,中國移動將進一步加快推進網絡運維數智化轉型,全面采用自動化、智能化的技術實現面向客戶感知的端到端運維支撐能力,實現業務敏捷開通和網絡高效運維。”
實現網絡的SLA保障仍然很困難。網絡擁塞導致的業務卡頓、閃斷、質差隨處可見,即便用戶投訴后也難以精確定位和快速恢復。當前的用戶體驗管理都是基于投訴驅動的,75%的網絡問題目前都是由最終用戶感知和發現的,分析處理速度無法支撐網絡故障的提前準確定位,更無法預判網絡瓶頸和潛在的問題。60%運營商的運維是“黑匣子”,做不到端到端的可視,在發生網絡故障或遇到瓶頸后,無法快速恢復業務或優化網絡資源,無法形成端到端的閉環手段并快速解決[3]。故障很難被事前發現和預防,客戶體驗和滿意度難以得到保障。
所以,未來的網絡運營和運維必然是“主動”式的,運營商使用先進的自動化、智能化技術武裝自己,主動服務好客戶,掌握業務發展的主動權,讓網絡自身承擔更多簡單、重復的工作。
第三個方面,運營和運維經驗不可積累和演進,主要由人工操作,不能繼承或成本高,未來需要將經驗數字化交由系統完成,重復使用。
當前運營商的運營和運維的經驗一般是與場景強相關的,并且大量依賴人工操作,無法移植到其他類似場景,或者移植過程成本很高,且無法自動適應新情況,導致效率提升的工作需要反復做,沒有完全發揮出批量快速復制的效能。
相對網絡規模來說,當前電信專家資源是稀缺的。中國電信在其2021年的首次A股招股書中寫道:“創新開展‘騰云計劃’人才培養項目,培養1000名領軍IT上云專家。大力培養‘懂行業、懂客戶、懂生態、懂技術、會溝通’的產業數字化專家隊伍,推選2000名領軍的行業專家?!?/p>
然而通過簡單“堆人”的方式“生產”專家資源越來越不現實,主要原因如下。
首先,培養一個電信專家耗時耗力,且培養模式難以大規模復制。電信專家能力模型要求門檻較高,如圖1-4所示,不同的網絡專業所需運維知識均不相同,每個專家除了初期學習專業運維知識外,仍需要大量實踐來積累經驗。單個人通過經驗沉淀成為電信專家,一般需要數年時間,而所有經過初步培訓的專家種子,都需要分布到不同的工作環境中,所面臨的實踐環境各有不同,其培養模式自然也沒辦法大規模復制。
其次,專家資源“陷在”網上事故的“泥潭”中,沒有精力投入主動運維的研究中。一個專家處理網上事故的過程不可重復,導致專家只能處理緊急事故,沒有時間開展重要而不緊急的預測、預防技術的研究,專家資源幾乎全消耗在緊急事務的處理中。

圖1-4 電信網絡運維專家能力模型
最后,專家培養速度無法與網絡運維人力需求匹配。隨著網絡結構越來越復雜,網絡管理的要求已超越人的能力,培養專家的難度越來越大,周期變長,專家資源愈發稀缺,而且年輕人不太愿意干這類重復的事情。
鑒于專家資源與網絡運維工作需求間的缺口越來越大,業界提出將運營和運維的專家經驗數字化,作為知識庫供全網范圍引用,既可以避免這些寶貴的專家經驗失傳,也可以加速專家經驗在更廣范圍的推廣應用,提升場景規模復制的效率。專家通過學習這些匯總的經驗,又可以抽象歸納出更多高級的經驗,再對這些經驗進行數字化,注入自智網絡中,形成不斷演進的良性循環。
關于網絡知識和專家經驗數字化的技術,是面向更高階的智能化網絡的,目前正在蓬勃發展,但也存在一些關鍵的技術挑戰,需要不斷研究和完善,具體可參考5.5節。
綜上所述,當前的網絡運營和運維效率,已經無法滿足網絡高速發展的要求,必須借助自動化、智能化的先進技術提升效率,以有限的人力來滿足無限可能的業務訴求,同時提升最終用戶的客戶體驗。