詳解6G系統數據治理方案的設計要點和原則
本文轉載自微信公眾號「大數據DT」,作者童文 朱佩英。轉載本文請聯系大數據DT公眾號。
數據的使用范圍不同,數據治理本身不論是經濟內涵還是技術內涵也不同。數據治理是指通過相關流程和技術,對數據進行管理、維護和深度開發,獲得可以作為組織關鍵資產的高質量數據。
每個移動網絡運營商(Mobile Network Operator,MNO)將移動通信系統中產生的數據按技術域隔離并單獨存儲,這些技術域包括無線接入網(Radio Access Network,RAN)、核心網(Core Network,CN)、傳輸網(Transport Network,TN)以及運行、管理和維護(Operation, Administration, and Maintenance,OA&M)等。不同網元、不同參與者擁有的數據不夠公開透明,由此帶來的數據孤島是數據采集和共享中的主要瓶頸。
另一方面,大型OTT(Over-The-Top)業務公司在數據治理和變現策略方面(如數據存儲、分析服務、API接口)積累的專業知識遠遠領先于電信領域公司。
6G系統的數據治理方案將為AI和感知業務提供有力支持,將催生新的業務方式和系統特性。
一、設計要點和原則
數據治理的范圍遠不止是傳統的數據采集與存儲。總體上,系統設計需要考慮四個方面,如圖1所示。
▲圖1 數據治理的設計要點
1. 數據可獲得性和質量
數據可獲得性和質量是AI能否在各行業中得到應用的最大挑戰之一。提高數據的可獲得性,意味著數據不能僅僅來自單個系統、單個領域,而需要同時來自多個系統的不同領域。這就提出了一個根本問題:如何打破(多廠商、多運營商、多行業之間的)物理邊界,讓數據進入異構數據海洋?
一旦收集并利用了原本分散且相互隔離的數據,另一個問題隨之而來:如何提高數據的質量?海量數據的獲取,并不意味著獲取的數據是可用的、高質量的。同時,在考慮降低數據處理計算復雜度和能耗的同時,還需要提高數據處理效率。
2. 數據主權
隨著社會的全數字化轉型,數據主權、數據安全和隱私的重要性空前突出,很多國家都制定了隱私保護的法律法規。服務提供商也在不斷更新它們的隱私保護方案,主要國家政府也正在制定或已發布了數據管理相關的規定。
例如,歐盟2018年頒布的《通用數據保護條例》(General Data Protection Regulation,GDPR)就從歐盟層面上規范了數據的使用。2019年,中國頒布了《數據安全管理辦法》,與2016年頒布的《網絡安全法》一起構成了中國版的GDPR。美國也正在實施隱私相關的法律,例如加州的《消費者隱私保護法》(Consumer Privacy Act)已于2020年1月正式生效。
如何充分挖掘數據的內在價值,為各種業務提供精確支撐的同時兼顧隱私保護,尊重數據主權,已成為近年來的熱門話題。6G系統設計應當考慮到監管的不確定性,尤其是存在于不同地區之間的監管差異帶來的不確定性。
3. 知識管理
一般來說,知識可以看作是經過處理后的具有特定用途或價值的數據,可以被不同技術和業務領域的物理實體或虛擬實體直接使用。
知識管理包括知識的生成、更新和開放。就知識的生成和更新來說,我們需要仔細把關數據的來源和質量,采取措施攔截不可靠甚至是惡意的數據源產生的低質量和有害數據。而將知識作為一種能力對外開放,則需要適合的平臺和接口設計。
4. 法律問題
各種各樣的傳感器和其他技術可以實時產生數據,這讓數據收集和使用越來越復雜和敏感。數據生成能力的提升不僅提供了新的數據流和內容類型,同時也引發了政策和法律對數據濫用的關注:別有用心的機構或政府可能利用這些能力達到社會控制的目的。
同時,新技術能力也讓普通人難以分辨技術內容的真假。比如,普通人就很難區分一段真實視頻和一段“深度偽造”(deep fake)的視頻。維
護技術的社會利益和防止技術能力被用于實施社會控制、剝奪自由之間存在一種脆弱的平衡,如何保護這一平衡,變得愈發重要。為了識別欺詐行為、防止先進技術被濫用,需要更嚴格的法律和政策手段。
二、架構特點
獨立的數據面是數據治理系統設計中的關鍵特性(如圖2所示),它將為6G系統提供數據相關的通用能力,從而為6G系統內部和外部功能提供透明、高效、內生安全和隱私保護。下文將介紹基本概念和相關網絡功能和業務。
▲圖2 獨立的數據面實現完整的數據治理
1. 獨立數據面
獨立數據面旨在實現6G系統的數據治理方案,它處理的數據來自不同業務實體。不論數據來自哪里,數據的整個生命周期都在這一平面完成處理,包括數據生成與收集、數據處理與分析、數據業務發放。
因此,獨立的數據面可以為外部商業實體(如汽車、制造和醫療等垂直行業)提供數據服務,也可以為6G系統本身(如控制面、用戶面和管理面)提供網絡自動化和優化服務。網絡運行相關的配置、狀態、日志,以及用戶個人數據、傳感器數據、其他各方提供的數據都是收集的對象。
收集到的數據會形成豐富的數據資源,這些數據資源可以以分布式的形式被組織起來。為了防止直接將原始數據用于AI和感知等應用而導致的問題,原始數據在被使用之前通常需要預處理(如匿名化、數據格式再塑、去噪、轉換、特征提取等)。
為確保數據完整、過程合規,數據處理過程中所涉及的政策(如地理限制、國家或地區隱私法規等規定),不論是否來自監管層面,都默認需要遵守。將數據傳遞至數據面時,還需要遵守數據合同中約定的數據使用權利和義務。數據脫敏是保護隱私的關鍵,數據面需要提供這一服務。
上述由數據面提供的所有服務,都由自包含的OA&M系統來運營管理。
數據面的另一重要功能是基于數據收集、處理和編排生成知識。為了協調來自不同數據源的數據的處理和傳輸,知識的生產也需要按照合同要求進行。
隨著新的數據源、數據模型、數據主題被數據客戶關注和使用,數據治理框架可以不斷演進、不斷充實。因此,數據治理框架的運營管理和框架的實時發展是可以并行的。
由于數據面是一個邏輯概念,所以可以通過集中式分層架構實現,也可以作為一種分布在邊緣或深度邊緣節點上的邏輯功能實現。接下來我們將探討數據面的一些關鍵要素。
2. 數據治理的多方角色
數據治理生態系統包括兩個維度的角色:從數據客戶到數據提供者、從數據所有者到數據管理者。不同的角色可以由不同的業務實體擔任。因此,6G中的數據治理是典型的多方參與場景,使用6G系統提供的數據或知識的數據客戶、6G系統的數據提供者都可能參與其中。
6G可以有自己的數據治理框架,也可以在自身領域知識的基礎上,與其他行業參與者一起構建數據治理框架。也就是說,數據治理框架可能存在不同的演進或發展路線。因此,不同業務實體之間在運營階段如何確定數據權利非常重要,可以借助區塊鏈等去中心化技術解決這一問題。
3. 數據資源
數據資源的內容非常豐富,包括結構化數據、非結構化數據、預處理數據、后處理數據、原始數據。從無線環境中高效收集數據(如移動性等用戶行為數據和網絡狀態數據)是數據治理的前提。然后可以使用智能方法分析數據、將數據衍生的知識傳輸給內外部客戶。因而有必要了解數據的來源。
▲圖3 主要數據源類別
圖3展示了6G系統中一些主要的數據源類別。
- 基礎設施:基礎設施即通信系統,包括RAN、TN和CN等各類物理和虛擬資源,以及云、邊緣和深度邊緣等計算資源?;A設施內部產生的數據包括計算資源信息、通信資源信息(如某一網絡功能的狀態)、感知信息(如來自RAN的感知信息),以及某些用戶信息(如移動性信息、位置和相關上下文)。
- 運營支撐系統(Operation Support System,OSS):這一層的數據包括所有OA&M相關的數據,如物理設備狀態、系統運行信息、業務發放信息。
- 業務支撐系統(Business Support System,BSS):這一層的數據包括所有與業務邏輯相關的數據,如客戶信息、伙伴關系管理信息。更重要的還有消費者和企業客戶的訂閱數據,對于這些數據,他們應擁有完全所有權和控制權。
- 行業通信系統:6G行業應用場景中,收集的數據可能還包括行業相關OA&M數據信息、行業用戶信息(如流量規律和移動性數據)以及存儲在云端的業務/服務數據。此類數據的所有權應完全屬于行業客戶。
- 終端:來自終端側的數據包括計算和通信資源、業務使用概況、感知知識等。此類數據的所有權應完全屬于終端用戶。
4. 數據搜集
6G中,數據治理的一個主要作用就是提供合適的方法構建數據資源,這需要合適的架構和網絡功能的支持,構建數據資源的第一步是收集數據,這一步有如下幾個關鍵動作:
- 與數據源建立協議(如數據授權)和安全連接。
- 接收數據收集需求,確定收集范圍,根據需求確定收集的地點、時間和方式。
- 將數據屬性告知數據源。
- 從數據源收集數據并入庫。
- 對數據庫中的數據進行操作和維護。
5. 數據分析
在管理數據資源的基礎上,為不同類型客戶提供數據分析服務便成為可能。有如下四種數據分析服務可以提供:
- 描述性分析挖掘歷史數據的統計信息,提供網絡洞察信息,如網絡性能、流量模型、信道狀況、用戶等方面。
- 診斷性分析可以實現網絡故障和業務損傷自主檢測,識別網絡異常根因,從而提升網絡可靠性和安全性。
- 預測性分析利用數據來預測未來事件,如流量模式、用戶位置、用戶行為和偏好、資源可用性,甚至是故障。
- 建議性分析基于預測性分析為資源分配、內容展示等提供建議。
數據面提供的知識來自數據分析服務,提供的知識包括主動知識(如行動建議)和被動知識(如信息共享和客戶的行動決定)。
數據分析服務可以基于客戶需要,并根據客戶需求定制。數據面應按需多維度開放服務和數據,表1列舉了可向客戶提供的服務類型的示例。可以預見的是,實際的客戶類型比表格中所列舉的更豐富,客戶對數據分析的需求和使用場景也各不相同。
▼表1 數據面提供的多維數據服務示例
6. 數據脫敏
收集和儲存敏感數據,就涉及了隱私風險,需要承擔隱私保護責任。數據脫敏是回應隱私關切、實現法律遵從的重要動作,對于在6G設計中支持AI和感知業務也尤為重要。
特別是對于AI任務,需要考慮跨領域的設計。近來有大量關于AI領域中差分隱私(differential privacy)的研究,探討如何將單個設備的訓練數據匿名化。
模型訓練和AI推理過程中的數據脫敏在6G設計中必不可少。實現差分隱私的方法包括:在不影響數據統計屬性的前提下為訓練數據加入噪聲,訓練模型仍然可以捕捉到原始數據集的特征;使用加密技術,使機器學習基于加密的(而非解密的)數據進行。還有一種方法是,讓設備發送模型參數,而不是訓練數據,比如說聯邦學習和拆分學習。
在這一過程中存在一個風險,如果有完全掌握學習方法的內部人員心懷不軌,那么他可以利用模型逐漸收斂的過程構造與訓練數據類似的信息。例如在聯邦學習中,信息可能因此被泄露給惡意設備。
不論何種學習方法,數據脫敏都是需要考慮的問題。因此,我們需要在這個前提下,思考如何處理不同學習方法之間的差異和學習方法自身的局限性。
關于作者:童文 博士,華為無線CTO,華為5G首席科學家,華為Fellow,IEEE Fellow,加拿大工程院院士,曾獲IEEE通信學會杰出行業領袖獎、費森登獎章。朱佩英 博士,華為無線研究領域高級副總裁,華為Fellow,IEEE Fellow,加拿大工程院院士。
本文摘編自《6G無線通信新征程:跨越人聯、物聯,邁向萬物智聯》,經出版方授權發布。(ISBN:9787111688846)