成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

跨模態通信總丟失語義、產生歧義?加入AI大模型,LAM-MSC實現四模態統一高效傳輸

人工智能 新聞
由湖南師范大學、南京大學和東南大學等機構組成的研究團隊提出了基于AI大模型的多模態語義通信(LAM-MSC)框架。

本文的作者為湖南師范大學的江沸菠副教授,彭于波博士,湖南工商大學的董莉副教授,英國布魯內爾倫敦大學的王可之教授,南京大學的楊鯤教授(歐洲科學院院士),東南大學的潘存華教授、尤肖虎教授(中國科學院院士)。

多模態信號,包括文本、音頻、圖像和視頻等,可以被整合到語義通信中,在語義層面提供低延遲、高質量的沉浸式體驗。然而,多模態語義通信面臨著數據異構、語義歧義和信號衰落等挑戰。AI 大模型,尤其是多模態語言模型和大語言模型的發展,為解決這些問題提供了新思路。

基于此,由湖南師范大學、南京大學和東南大學等機構組成的研究團隊提出了基于AI大模型的多模態語義通信(LAM-MSC)框架。

圖片

  • 論文題目:Large AI Model Empowered Multimodal Semantic Communications
  • 作者:江沸菠,董莉,彭于波,王可之,楊鯤,潘存華,尤肖虎
  • 來源:IEEE Communications Magazine
  • 論文鏈接:https://ieeexplore.ieee.org/abstract/document/10670195/

引言

人工智能和物聯網的融合催生了全息通信等智能應用,推動通信系統向語義通信演進。語義通信注重傳輸內容的「含義」,能實現更智能的通信服務。隨著元宇宙等應用發展,傳輸數據日益呈現多模態特征。

傳統語義通信系統僅能處理單一模態數據,而多模態語義通信系統能夠處理文本、語音、圖像、視頻等多種模態數據,減少了高開銷和低效率的問題。

圖片

圖 1 :傳統的單模態語義通信系統與多模態語義通信系統。

如圖 1(a)所示,傳統的語義通信系統通常只能處理單一類型的單模態數據。因此,傳輸多模態數據時,需要使用多個單模態語義通信系統,可能導致顯著的高開銷和低效率。另一方面,圖 1(b)展示了一個多模態語義通信系統,通過采用統一的多模態語義通信模型,可以處理多種模態數據。

然而,多模態語義通信系統的設計面臨以下挑戰:

(1)數據異構:需要處理文本、圖像、視頻等多種格式的數據,且目標任務可能非常復雜,涉及機器翻譯、圖像識別、視頻分析等。提取語義特征時,還需解決不同模態之間的語義對齊問題。

(2)語義歧義:在不同模態之間傳輸數據時,可能會產生語義錯誤或誤解,同時不同的知識背景可能導致語義理解不一致,進而引發歧義。

(3)信號衰落:信號在傳輸過程中可能會受到衰落和噪聲的影響,導致信息丟失或語義變化,從而增加個性化語義重建的復雜性。

為解決上述挑戰,本文提出了一種基于 AI 大模型的多模態語義通信框架,具體貢獻如下:

(1)統一的語義表示:采用基于多模態語言模型的多模態對齊技術(MMA),使用可組合擴散模型(CoDi)處理多模態數據。MMA 通過構建共享的多模態空間,促進交叉模態的同步生成。通過將多模態數據統一到文本模態,提升語義一致性和信息傳輸的效率。

(2)個性化語義理解:設計了基于個性化 LLM 的知識庫(LKB),利用 GPT-4 模型來理解個人信息。通過個性化提示庫對 GPT-4 進行上下文學習,創建本地知識庫,提取更多相關的語義信息,從而消除語義歧義。

(3)生成式信道估計:提出使用條件生成對抗網絡進行信道估計(CGE),估算衰落信道的信道增益。該方法通過專用生成器網絡和 leakyReLU 激活函數,捕捉信道增益的非線性特性,從而實現高質量的信道增益預測。

多模態語義通信的實現

LAM-MSC 框架集成了 AI 大模型作為解決方案。具體來說,該框架通過以下五個關鍵步驟實現多模態語義通信。

圖片

圖 2 :所提出的 LAM-MSC 框架的示意圖。

基于 MMA 的模態轉換

對于輸入的多模態數據(圖像、音頻和視頻等),利用 MMA 將這些數據轉換為文本數據,并保持語義對齊。

例如,如圖 3 所示,原始的傳輸數據包括一張照片,上面是發送者(假設是 Mike)和接收者(假設是 Jane)在花園里玩耍的場景。然后,原始圖像被轉換成文本描述:「A boy and a girl in a playful pose. The boy has golden hair and is wearing a brown suit with a red tie. The girl has black hair and is wearing a white dress with a black bow. The background is a garden」。

圖片

圖 3 :所提出的 LAM-MSC 框架的數據流示例:發送者 Mike 向接收者 Jane 發送一張圖片,意圖傳達圖片的語義內容為 「Mike and Jane are playing in a garden」。

基于 LKB 的語義提取

對轉換后的文本數據,發送者只傳輸包含其意圖的關鍵信息,省略冗余信息。整合發送者意圖和用戶信息,提取個性化語義。

如圖 3 所示,通過整合發送者的意圖、用戶信息和興趣,LKB 提取了個性化語義 「Jane and me in a playful pose. The background is a garden」。這個描述代表了發送者和接收者的身份,并表明發送者的關注重點主要是照片中的「兩個人」和背景,而不是他們的裝扮。

基于 CGE 輔助的語義通信數據傳輸

語義通信以語義編碼器為起點,從原始數據中提取有意義的元素或屬性,旨在將該語義信息盡可能準確地傳輸給接收者。然后,信道編碼器將語義編碼數據調制成適用于無線通信的復數輸入符號。為了減輕衰落信道的影響,采用 CGE 來獲取 CSI,從而將乘法噪聲轉化為加性噪聲。

這種轉換降低了信道解碼器恢復傳輸信號的復雜性。接下來,利用信道解碼器進行信號解調,同時克服加性噪聲的影響。最后,語義解碼器執行語義解碼,從而獲取恢復的語義(例如,「Jane and I are playfully posing. The background is a garden.」)。盡管物理信道的干擾導致恢復語義與原始內容之間存在輕微差異,但總體含義保持了一致性。

基于 LKB 的語義恢復

接收者可能無法直接理解恢復的語義,因為接收到的消息的個性化是針對發送者而不是接收者的,這可能導致語義歧義問題。類似地,根據接收者的個性化提示詞和知識庫,采用 LKB 將解碼的語義轉換為接收者的個性化語義。

如圖 3 所示,LKB 根據接收者的用戶信息(例如,身份)調整恢復的語義。因此,恢復的語義被轉化為接收者 Jane 的個性化語義,得到文本「Mike and I are playfully posing. The background is a garden」。

基于 MMA 的模態恢復

與模態轉換類似,MMA 用于實現模態恢復,即將文本數據轉換回原始的模態數據。然而,需要注意的是,本文僅評估恢復的和原始的模態數據在語義層面上的一致性,而非數據細節的完全重現(例如可以通過角色一致性等技術生成相同角色身份的圖片,但是無法保證圖片在像素上的一致性)。

如圖 3 所示,恢復的圖像僅顯示「Mike and Jane are playing in a garden」。這是因為發送者的主要意圖在于人物和背景的語義方面,而不是關于人物裝扮的具體細節。

仿真結果

圖片

圖 4 在不同信噪比下的多模態語義通信傳輸準確性。

圖 4 的消融實驗顯示,提高信噪比能提升多模態語義通信的準確性。對比 LAM-MSC 和無 LKB 的 LAM-MSC 可以看出,個性化知識庫在提升語義傳輸準確性上起到了積極作用。

此外,去除 CGE 的 LAM-MSC 表現最差,表明在所提出的語義通信系統中引入 CGE 的重要性。

圖片

圖 5 不同方法的對比結果。

圖 5 的對比實驗比較了 LAM-MSC 框架與專門用于圖像傳輸的 DeepJSCC-V 方法和音頻傳輸的 Fairseq 方法。

盡管這些方法在準確性上略勝一籌,但 LAM-MSC 在壓縮率上表現更好,因為它能將圖像和音頻轉為文本,減少傳輸數據量。此外,LAM-MSC 能處理多模態數據,而 DeepJSCC-V 和 Fairseq 只能處理單模態數據。

更多詳情,請參閱論文原文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-12-19 18:12:25

谷歌模型AI

2025-02-26 13:45:00

2025-01-08 08:21:16

2023-06-05 10:09:03

研究人工智能

2024-11-13 09:39:13

2025-06-09 08:50:00

2023-12-28 17:31:44

PixelLM性能模型

2025-06-26 15:11:41

AI模型自動化

2024-12-18 18:57:58

2024-12-30 00:01:00

多模態大模型Python

2024-11-27 14:00:00

模型訓練

2023-06-06 14:09:32

模型開源

2024-12-09 08:15:43

2024-09-25 14:53:00

2025-05-14 08:51:00

2024-05-31 14:11:37

?大模型多模態AI

2025-06-04 13:53:57

AI模型Meta

2023-07-30 16:05:44

多模態學習框架自然語言
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本激情一区二区 | 国产高清视频一区二区 | 欧美一区二区综合 | 午夜电影网站 | 日韩视频在线免费观看 | 国产网站在线 | 久草视频观看 | www.99re| 午夜色婷婷 | 在线观看不卡av | 久久久影院 | 日韩免费一区二区 | 欧美国产一区二区 | 99久久精品国产麻豆演员表 | 欧美日韩高清免费 | 欧美综合视频在线 | 亚洲一区二区三区桃乃木香奈 | 男人电影天堂 | 中国一级特黄真人毛片免费观看 | 免费二区| 色婷婷综合网 | 久久综合久久综合久久 | 免费观看一级毛片 | 欧美在线成人影院 | 亚洲精品一区二三区不卡 | 亚洲淫视频 | 日韩精品在线观看一区二区 | 中文在线日韩 | 日韩一区二区三区视频在线观看 | 99久久久久久99国产精品免 | 91在线精品一区二区 | 青青草久久| 一区二区三区欧美在线 | 中文字幕爱爱视频 | 狠狠干狠狠插 | 免费在线观看h片 | 成人在线视频网 | 二区av| 国产精品一码二码三码在线 | 久久久一区二区三区 | 欧美日韩在线一区二区 |