AI落地無線網絡運維四大難題待破解
隨著無線通信網絡的發展,未來網絡在頻段和組網上將更加復雜,再加上業務多樣性和終端的多類型,無線通信系統的規模和復雜度將日益增長。
對于未來體系龐大的通信系統,無線網絡運維將面臨諸多挑戰,例如虛擬化與網絡演進增加運維復雜性,單個問題可能會觸發多個網絡區域的告警;用戶需求對網絡運維質量要求提升,期待延遲容忍度從300毫秒降低到10毫秒;網絡中可供分析的大量數據難以處理,實時分析數據量將增加1000倍以上等。
無線網絡運維中因此而出現了故障分析定位及故障溯源困難、故障無法預測、運維派單不準確、現有的響應式運維模式效率低、客戶體驗差等問題。面對這些網絡運維的壓力和挑戰,分析、擬合、經驗流等傳統的處理方法,已經越來越難以解決無線網絡運維的問題。
人工智能為網絡運維帶來曙光
人工智能的再上巔峰,讓無線網絡的運維系統看到了一線曙光,通過引入AI這柄“利器”,依托人工智能的自學習、深度學習能力,可以在海量的運維數據中抽取隱含的關聯特征和規則,追溯事件根因、指導故障分析和定位,同時可以通過共性特征的提取總結,對未來事件進行預測。
例如,結合提供的告警、資源、網絡拓撲數據,采用相關人工智能方法探知故障告警之間關聯關系及故障原因定位因素,形成故障定位體系及網絡維護管理體系,提升故障解決效率;基于無線網絡數據,采用相關人工智能方法分析和定位影響用戶感知的根源問題,并指導運維部門提供系統性的優化解決機制;利用人工智能算法,以用戶側數據和網絡側數據為基礎,分析用戶群體特征,找出影響用戶網絡感知評分的關鍵因素,預測用戶對通信網絡的滿意度,及時發現用戶對于網絡貶損的真正痛點,為運營商網絡運維策略提供依據,從而提升用戶體驗。
盡管人工智能在無線網絡的運維中有著非常良好的應用前景,并且許多運營商和設備商已經開展了探索和嘗試,但至今業內仍然缺乏標桿式的案例及規模性的應用,究其原因,有幾個關鍵問題橫亙在AI和通信網絡之間,阻礙了兩者的結合。
問題一:無線網絡數據可用性差
AI是數據“喂”出來的,無線網絡擁有龐大的數據,這本是智能運維的最大優勢,但是當前的無線網絡數據維度高、數據類型多、數據量巨大、缺失數據多、不同設備廠家數據格式不統一,種種因素導致無線數據的使用成了AI在網絡運維中的第一道門檻。主要問題如下。
- 一是無線數據可以從頻譜測量儀表、用戶終端、基站端與核心網設備、應用服務等多處獲得,原始數據中包括物理層、接入層、網絡層、應用層等數據,這些數據體量大,需要AI運維設計者非常清楚和準確地判斷提取哪些數據,并考慮如何組合利用,稍有不慎就會導致結果背道而馳。
- 二是數據獲取審批難。由于無線網絡數據涉及用戶個人隱私,考慮到信息安全和隱私保護,獲取無線網絡數據往往需要各種審批,時間周期長、流程繁瑣。
- 三是不同的設備廠家能夠提取的數據的格式、特征名稱、數據的計算方式都不相同,能夠提取到的數據時間粒度也不一樣,難以統一。
- 四是數據量大,保存歷史數據量有限,往往只能保存最近半年或一年的數據。但是,AI中對于時間序列的分析往往需要較長時間的歷史數據才能訓練出規律。因此,長期數據的存儲和獲取也是需要解決的問題。
- 五是數據處理難度大,無線網絡每天將產生百TB級別的數據。如何對海量數據進行清洗、標準化、實施特征工程等是巨大挑戰。
- 六是數據缺失或錯誤類型多。由于無線網絡數據維度多數據量大,在提取數據的過程中會造成各種不同類型的缺失或錯誤。不同的數據類型有不同的合理值,在處理錯誤數據的過程中需要考慮諸多數據的異常處理,難度大。
為了解決數據的問題,行業需要聯動,形成統一數據標準,針對無線網絡數據,由權威的協會、聯盟或國家部門制定統一的數據標準,包括數據格式、參數定義、計算方式等多個方面,降低數據處理的復雜度。還要進行數據脫敏,主要針對含有用戶隱私或涉及信息安全的數據進行加密編碼,這將有效保護個人隱私,并且不影響AI算法對數據的分析。另外需要加強分布式并行處理,對于大體量的無線數據集,建立分布式系統,并行處理數據,提高效率。
問題二:無線網絡AI算法的應用難題
無線網絡場景復雜多樣,具有隨機性和多變性的特點,有些場景下直接采用AI算法可能無法收斂或者效果比較差。這使得無線網絡運維中AI的應用面臨諸多挑戰。
- 一是無線網絡建模難度大。無線網絡場景多、數據維度多、時變性強。針對無線運維中的導頻功率調整、邊緣吞吐率提升、M-MIMO波束調整、D-MIMO智能簇分配、多天線特性增益等多種場景,信道變化隨機性強,如突發的天氣或突發事件將會影響網絡參數,難以準確建模。
- 二是求解復雜度高。例如求解與用戶感知速率相關的網絡指標,涉及RRC建立請求次數、UE會話時長、下行TTI調度次數、下行采用64QAM的PRB個數等上百種參數,再加上時間維度的參數,求解非常復雜,而且在很多情況下難以求得最優解。
- 三是無法準確分類。無線網絡的類別多種多樣,存在諸多差別,難以找尋共性來準確表述。例如,在故障運維的分類問題中,網絡中的故障通常表現出多樣性,比如告警、KPI異常或業務不通等,故障告警很多時候不能準確地反映故障信息,即使運維人員也難以辨別,運用人工智能的算法也許需要做大量的故障標注工作,很多故障涉及的特征很多,難以準確分類。
針對AI算法的問題:
- 一是可以建立動態學習、持續學習算法,應對突發問題。目前主流的AI算法應用主要是針對靜態數據進行學習,不是基于動態數據的持續學習來完成的,這很難解決具有突發性、不可預期性、不可重復性的無線網絡運維問題。因此需要建立動態環境下AI學習算法,收集歷史的突發情況,總結規律,當運維系統發生異常行為(比如被惡意攻擊)或者外部環境變化(比如惡劣天氣引發的信道突變)導致的突發性變化時,人工智能系統在沒有相關處理經驗情況下也能具有相應的處理能力。
- 二是可以強化學習,建立規則庫。學習一個策略函數,以最大化長遠收益為目標,建立一個觀察值到輸出行為的映射關系。針對無線網絡運維中的問題,根據系統中網絡及業務上下游關系,綜合多維度歷史數據分析,挖掘出潛在特征和規則,輸出事件和特征的匹配規則庫。在實際網絡運維中,根據特征自動匹配規則,給出判決和處理建議。運維結束后,根據當次運維結果的有效性反向修正、強化現有規則系統,進行自學習和自優化。
- 三是根據業務知識做特征工程。結合通信專業知識和人工智能特征工程的方法,通過增加特征、篩選特征、數據建模增加時間維度等,求解出對結果至關重要的特征。
問題三:無線網絡AI系統開發的挑戰
無線網絡AI平臺系統開發過程中的挑戰主要在以下幾個方面。
- 一是數據預處理階段,會涉及大量的無線網絡數據文件隨機讀寫的問題,如何提高數據訪問效率是在數據預處理階段面臨最大的挑戰。
- 二是數據處理階段,由于數據維度多、體量大、數據格式不統一,很難設計出具有普遍適用性的數據處理模塊。
- 三是訓練階段,因為會涉及到大量的模型調優,訓練出一個最優的模型,需要巨大的計算資源。
- 四是結果推理響應階段,當成千上萬的數據批量過來的時候,如何提高整個系統的吞吐率,及時做出響應,是結果推理段面臨的挑戰。
- 五是設計可以不斷學習和自適應的人工智能系統,使其可以做出及時、穩定、安全的決策。
- 六是設計支持個性化服務的系統,同時要保護用戶的隱私和保證用戶的安全。
對于上述挑戰,無線AI系統在開發時需要注意以下功能特點。一方面要考慮采用CPU+GPU+FPGA混合異購模式的高效單元,能高效進行離線數據分析和在線數據實時分析。無線AI平臺需要具備對于多種不同制式不同結構類型統一處理的能力,可以快速、穩定地處理于無線業務所產生的海量的結構化、半結構化和非結構化的數據信息。
在無線業務場景中,有諸多應用需要根據平臺的在線計算做出實時決策,無線AI系統需要針對無線中眾多需要實時服務的業務場景,提供相應實時在線分析能力。所提供的實時分析,可以根據不同的業務需求設定為小時級、分鐘級、秒級甚至是毫秒級。
另一方面要具有高性能的分布式存儲能力。由于數據形式非常多樣,需要結合應用場景進行數據清洗、特征提取等預處理,并根據不同結構類型的數據,定義統一的表示形式。然后根據后續業務需求,將數據分布存儲到不同的服務器上,以供其他模塊調用。
AI在無線網絡中應用的綜合挑戰
除了技術層面的幾個關鍵問題外,AI應用于無線網絡還存在著硬件部署、軟件開發、人才、成本等方面的問題。應用于AI處理的GPU設備大小不符合傳統機房機架的尺寸,而且需要專門風扇提供散熱機制,供電和部署對于通信行業都是難以解決的問題。
由于無線網絡的從業人員主要是掌握的是通信體系的知識,對于軟件開發及數據算法建模等知識不太了解,因此存在人才短缺和軟件開發方面的困難。改造機房、購置AI處理設備、聘請專業開發人員或AI算法工程師,將會需要巨大的成本開銷,對于運營商來說將是一個不小的壓力。
面對這些問題,電信運營商、設備商需要勇于創新,敢啃“硬骨頭”,在數據規范化、行業統一化方面行動起來,齊心協力解決共同難題。同時也要沉下心做好功課,“吃透”AI,面對技術難關不怕投入,迎難而上,終會收獲回報的果實。各方還要開放心態,結合AI產業界的力量,與AI公司、互聯網行業合作,共同開發平臺,找到共同盈利的商業模式,優勢互補,最終為全社會打造一個智能化、泛行業化、人性化的移動互聯網絡。