跨模態通信總丟失語義、產生歧義?加入AI大模型,LAM-MSC實現四模態統一高效傳輸
本文的作者為湖南師范大學的江沸菠副教授,彭于波博士,湖南工商大學的董莉副教授,英國布魯內爾倫敦大學的王可之教授,南京大學的楊鯤教授(歐洲科學院院士),東南大學的潘存華教授、尤肖虎教授(中國科學院院士)。
多模態信號,包括文本、音頻、圖像和視頻等,可以被整合到語義通信中,在語義層面提供低延遲、高質量的沉浸式體驗。然而,多模態語義通信面臨著數據異構、語義歧義和信號衰落等挑戰。AI 大模型,尤其是多模態語言模型和大語言模型的發展,為解決這些問題提供了新思路。
基于此,由湖南師范大學、南京大學和東南大學等機構組成的研究團隊提出了基于AI大模型的多模態語義通信(LAM-MSC)框架。
- 論文題目:Large AI Model Empowered Multimodal Semantic Communications
- 作者:江沸菠,董莉,彭于波,王可之,楊鯤,潘存華,尤肖虎
- 來源:IEEE Communications Magazine
- 論文鏈接:https://ieeexplore.ieee.org/abstract/document/10670195/
引言
人工智能和物聯網的融合催生了全息通信等智能應用,推動通信系統向語義通信演進。語義通信注重傳輸內容的「含義」,能實現更智能的通信服務。隨著元宇宙等應用發展,傳輸數據日益呈現多模態特征。
傳統語義通信系統僅能處理單一模態數據,而多模態語義通信系統能夠處理文本、語音、圖像、視頻等多種模態數據,減少了高開銷和低效率的問題。
圖 1 :傳統的單模態語義通信系統與多模態語義通信系統。
如圖 1(a)所示,傳統的語義通信系統通常只能處理單一類型的單模態數據。因此,傳輸多模態數據時,需要使用多個單模態語義通信系統,可能導致顯著的高開銷和低效率。另一方面,圖 1(b)展示了一個多模態語義通信系統,通過采用統一的多模態語義通信模型,可以處理多種模態數據。
然而,多模態語義通信系統的設計面臨以下挑戰:
(1)數據異構:需要處理文本、圖像、視頻等多種格式的數據,且目標任務可能非常復雜,涉及機器翻譯、圖像識別、視頻分析等。提取語義特征時,還需解決不同模態之間的語義對齊問題。
(2)語義歧義:在不同模態之間傳輸數據時,可能會產生語義錯誤或誤解,同時不同的知識背景可能導致語義理解不一致,進而引發歧義。
(3)信號衰落:信號在傳輸過程中可能會受到衰落和噪聲的影響,導致信息丟失或語義變化,從而增加個性化語義重建的復雜性。
為解決上述挑戰,本文提出了一種基于 AI 大模型的多模態語義通信框架,具體貢獻如下:
(1)統一的語義表示:采用基于多模態語言模型的多模態對齊技術(MMA),使用可組合擴散模型(CoDi)處理多模態數據。MMA 通過構建共享的多模態空間,促進交叉模態的同步生成。通過將多模態數據統一到文本模態,提升語義一致性和信息傳輸的效率。
(2)個性化語義理解:設計了基于個性化 LLM 的知識庫(LKB),利用 GPT-4 模型來理解個人信息。通過個性化提示庫對 GPT-4 進行上下文學習,創建本地知識庫,提取更多相關的語義信息,從而消除語義歧義。
(3)生成式信道估計:提出使用條件生成對抗網絡進行信道估計(CGE),估算衰落信道的信道增益。該方法通過專用生成器網絡和 leakyReLU 激活函數,捕捉信道增益的非線性特性,從而實現高質量的信道增益預測。
多模態語義通信的實現
LAM-MSC 框架集成了 AI 大模型作為解決方案。具體來說,該框架通過以下五個關鍵步驟實現多模態語義通信。
圖 2 :所提出的 LAM-MSC 框架的示意圖。
基于 MMA 的模態轉換
對于輸入的多模態數據(圖像、音頻和視頻等),利用 MMA 將這些數據轉換為文本數據,并保持語義對齊。
例如,如圖 3 所示,原始的傳輸數據包括一張照片,上面是發送者(假設是 Mike)和接收者(假設是 Jane)在花園里玩耍的場景。然后,原始圖像被轉換成文本描述:「A boy and a girl in a playful pose. The boy has golden hair and is wearing a brown suit with a red tie. The girl has black hair and is wearing a white dress with a black bow. The background is a garden」。
圖 3 :所提出的 LAM-MSC 框架的數據流示例:發送者 Mike 向接收者 Jane 發送一張圖片,意圖傳達圖片的語義內容為 「Mike and Jane are playing in a garden」。
基于 LKB 的語義提取
對轉換后的文本數據,發送者只傳輸包含其意圖的關鍵信息,省略冗余信息。整合發送者意圖和用戶信息,提取個性化語義。
如圖 3 所示,通過整合發送者的意圖、用戶信息和興趣,LKB 提取了個性化語義 「Jane and me in a playful pose. The background is a garden」。這個描述代表了發送者和接收者的身份,并表明發送者的關注重點主要是照片中的「兩個人」和背景,而不是他們的裝扮。
基于 CGE 輔助的語義通信數據傳輸
語義通信以語義編碼器為起點,從原始數據中提取有意義的元素或屬性,旨在將該語義信息盡可能準確地傳輸給接收者。然后,信道編碼器將語義編碼數據調制成適用于無線通信的復數輸入符號。為了減輕衰落信道的影響,采用 CGE 來獲取 CSI,從而將乘法噪聲轉化為加性噪聲。
這種轉換降低了信道解碼器恢復傳輸信號的復雜性。接下來,利用信道解碼器進行信號解調,同時克服加性噪聲的影響。最后,語義解碼器執行語義解碼,從而獲取恢復的語義(例如,「Jane and I are playfully posing. The background is a garden.」)。盡管物理信道的干擾導致恢復語義與原始內容之間存在輕微差異,但總體含義保持了一致性。
基于 LKB 的語義恢復
接收者可能無法直接理解恢復的語義,因為接收到的消息的個性化是針對發送者而不是接收者的,這可能導致語義歧義問題。類似地,根據接收者的個性化提示詞和知識庫,采用 LKB 將解碼的語義轉換為接收者的個性化語義。
如圖 3 所示,LKB 根據接收者的用戶信息(例如,身份)調整恢復的語義。因此,恢復的語義被轉化為接收者 Jane 的個性化語義,得到文本「Mike and I are playfully posing. The background is a garden」。
基于 MMA 的模態恢復
與模態轉換類似,MMA 用于實現模態恢復,即將文本數據轉換回原始的模態數據。然而,需要注意的是,本文僅評估恢復的和原始的模態數據在語義層面上的一致性,而非數據細節的完全重現(例如可以通過角色一致性等技術生成相同角色身份的圖片,但是無法保證圖片在像素上的一致性)。
如圖 3 所示,恢復的圖像僅顯示「Mike and Jane are playing in a garden」。這是因為發送者的主要意圖在于人物和背景的語義方面,而不是關于人物裝扮的具體細節。
仿真結果
圖 4 在不同信噪比下的多模態語義通信傳輸準確性。
圖 4 的消融實驗顯示,提高信噪比能提升多模態語義通信的準確性。對比 LAM-MSC 和無 LKB 的 LAM-MSC 可以看出,個性化知識庫在提升語義傳輸準確性上起到了積極作用。
此外,去除 CGE 的 LAM-MSC 表現最差,表明在所提出的語義通信系統中引入 CGE 的重要性。
圖 5 不同方法的對比結果。
圖 5 的對比實驗比較了 LAM-MSC 框架與專門用于圖像傳輸的 DeepJSCC-V 方法和音頻傳輸的 Fairseq 方法。
盡管這些方法在準確性上略勝一籌,但 LAM-MSC 在壓縮率上表現更好,因為它能將圖像和音頻轉為文本,減少傳輸數據量。此外,LAM-MSC 能處理多模態數據,而 DeepJSCC-V 和 Fairseq 只能處理單模態數據。
更多詳情,請參閱論文原文。