譯者 | 晶顏
審校 | 重樓
多模態AI的應用范圍正在不斷擴大,那么究竟什么是多模態AI?它又是如何運行的?
生成式AI在短短幾年內取得了長足的進步,從基本的文本響應發展到復雜的散文。隨著多模態AI(Multi-modal AI)的發展,這項技術的界限正在進一步擴大。如今,多模態AI正在涉足從醫療保健到機器人等多個行業。谷歌、OpenAI、Anthropic和Meta等科技巨頭也紛紛推出了自己的多模態AI模型。
什么是多模態AI?
多模態AI是指同時利用各種類型(或模式)數據形成見解、做出預測和生成內容的AI系統。
多模態模型能夠處理文本、圖像、視頻、語音等信息,以完成一系列任務,例如根據食物照片生成食譜,或是將音頻剪輯翻譯成多種語言等。
這與大多數只能處理單一模式數據的AI模型不同。例如,大型語言模型(LLM)只能處理文本數據,而卷積神經網絡(CNN)只能處理圖像。
簡單來說,多模態實際上是在嘗試復制人類的感知方式:我們將視覺、聲音和觸覺等感官輸入結合起來,形成對現實的更細致入微的感知,并利用這些數據來做出決定或采取行動。多模態模式也在嘗試做同樣的事情。通過在單個模型中集成多種數據類型,多模態AI系統可以更全面地了解其環境。
多模態VS單模態
多模態AI模型可以同時處理多種類型的數據,而單模態AI模型僅限于單一類型的數據輸入,并且只能以特定的數據模態提供輸出。例如,支持ChatGPT免費版本的GPT-3.5只支持文本輸入和輸出,它就屬于單模態;但另一款ChatGPT模型GPT- 40可以處理文本、圖像和音頻數據,它就屬于多模態。
多模態AI運行原理
多模態模型通常建立在轉換器(Transformer)架構上,通過計算數據點之間的關系,以理解和生成數據序列。它們處理“大量”的文本數據,刪除一些單詞,然后根據周圍單詞的上下文預測缺失的單詞是什么。對于圖像、音頻和模型設計用來理解的任何其他類型的數據,亦是如此操作。
這是通過一個稱為“嵌入”(Embedding)的過程來完成的,在這個過程中,原始數據被編碼成系統更容易理解和處理的數字格式(向量)。例如,文本數據被分解成單獨的標記(單詞、字母等),這些標記被轉換成數字。音頻數據被分割并分解為音高和振幅等特征,這些特征也被轉化為數字。然后將所有這些數字輸入到轉換器中,轉換器捕獲不同模態內部和之間的關系和上下文。
在少數情況下,模型是“原生多模態”的——專門為處理多種數據類型而構建的——Embedding通過一個稱為“早期融合”(Early Fusion)的過程同時發生,該過程將來自每種模態的原始數據組合、對齊和處理,使它們都具有相同(或相似)的數學表示。例如,這個模型不僅學會了“鴨子”這個詞,還學會了鴨子的樣子和聲音。從理論上講,這使得該模型不僅能夠識別鴨子的照片、鴨子的嘎嘎聲或字母“D-U-C-K”,而且還能識別鴨子是什么這一更廣泛的“概念”。
然而,這種方法的實現并不容易,這就是為什么目前存在的許多多模態系統都需要在后期通過一個稱為“后期融合”(Late Fusion)——即在每種類型的數據分別進行分析和編碼之后——的過程合并來自多個模態的信息。后期融合提供了一種結合和比較不同類型數據的方法,這些數據在各自的形式中外觀、大小和含義各不相同。
在開發出多模態模型后,使用帶有人類反饋的強化學習(RLHF)和紅隊等技術對其結果進行微調,以減少幻覺、偏見、安全風險和其他有害反應。一旦完成,該模型的行為應該類似于LLM,但具有處理文本以外的其他類型數據的能力。
多模態AI用例
以下是如今多模態AI應用的一些關鍵領域。
聊天機器人
配備多模態的AI聊天機器人可以比純文本聊天機器人更有效地響應用戶,提供更豐富、更有用的答案。例如,用戶可以輸入一張垂死的室內植物的照片,并獲得如何使其起死回生的建議,或者獲得他們鏈接到的視頻的詳細解釋。
AI助手
像亞馬遜的Alexa和谷歌助手這樣的AI助手之所以存在,是因為多模態AI。這些智能設備可以通過簡單的語音命令進行控制,允許用戶調出特定的圖像和視頻,接收當前事件、指令和一般信息(音頻和文本格式),甚至調整家中的照明和溫度。
醫療保健
醫療領域需要解釋幾種形式的數據,包括醫學圖像、臨床記錄、電子健康記錄和實驗室測試。單模態AI模型在特定模式下執行特定的醫療保健任務,例如分析X射線或識別遺傳變異。LLM通常被用來幫助用簡單的術語回答與健康相關的問題。現在,研究人員開始將多模態AI引入其中,開發新的工具,將來自所有這些不同來源的數據結合起來,幫助進行醫學診斷。
自動駕駛汽車
由于多模態AI,自動駕駛汽車可以處理和解釋來自多個來源的數據。攝像頭提供有關車輛環境的視覺信息,雷達探測物體及其速度,而激光雷達測量物體之間的距離,GPS提供位置和導航數據。通過將所有這些數據放在一起并進行分析,AI模型可以實時了解汽車周圍的環境并做出相應的反應——它們可以發現障礙物,預測其他車輛或行人的位置,并決定何時轉向、剎車或加速。
機器人
配備多模態AI的機器人整合了來自攝像頭、麥克風和深度傳感器的數據,使它們能夠更準確地感知環境并做出相應的反應。例如,它們可以使用攝像頭來觀察和識別物體,或者使用麥克風來理解口頭命令。甚至可以通過傳感器固定,讓它們擁有觸覺、嗅覺和味覺等人類擁有的全部五種感官。無論是人形機器人還是裝配線上的協作機器人,多模態AI都能給各種機器人在不同的環境中有效地導航。
多模態AI的優勢
更好地理解上下文
在學習過程中,多模態模型同時集成和分析廣泛的數據類型,這使它們對給定主題有了更全面的上下文理解,而非每個單獨的數據類型單獨能夠傳達的內容。
例如,如果一個多模態模型被提示生成一段獅子的視頻,它不僅會把“獅子”這個詞看作是一個字母序列——它還會知道獅子的樣子,獅子是如何移動的,以及獅子的吼聲是什么樣的。
更準確的結果
由于多模態模型旨在識別不同類型數據之間的模式和聯系,因此它們往往能夠更準確地理解和解釋信息。
它們不僅可以通過分析文本,還可以通過分析圖像來加強結果,從而更準確地預測,或者回答以前無法回答的問題。需要注意的是,多模態AI仍然有可能出錯,并可能產生偏見或其他有害的結果。
勝任更廣泛的任務
多模態AI系統可以處理比單模式AI系統更廣泛的任務。根據特定的模型,它們可以將文本提示轉換為AI生成的圖像,用簡單的語言解釋視頻中的內容,根據照片生成音頻剪輯等等。同時,單模態系統只能完成其中的一項任務。
更好地理解用戶意圖
多模態允許用戶選擇他們想要與AI系統交互的方式,而不是被困在一種交流模式中。
無論用戶是用動作、語言、打字、做手勢來表達自己,這都無關緊要。多模態AI系統可以讓用戶更好地控制他們想要表達的內容,以更好地捕捉他們的真實意圖。
更直觀的用戶體驗
由于多模態系統允許用戶根據自己的感覺以幾種不同的方式表達自己,因此用戶體驗“感覺更加直觀”。例如,用戶可以上傳一段音頻片段,而不必描述他們的汽車引擎發出的聲音,從而獲得有關問題的建議。或者,他們可以上傳冰箱和食品儲藏室的照片,而不是列出廚房里所有的食物來尋求食譜建議。
多模態AI的挑戰
需要更多的數據
由于它們使用多種不同的模式,因此多模態模型需要大量數據才能正常工作。例如,如果一個模型的目標是將文本轉換為圖像,反之亦然,那么它需要有一個健壯的文本和圖像數據集。
此外,模型所需的數據量還會隨著模型中參數(變量)的數量而增加。隨著參數數量的增加,模型需要的數據也就越多。
有限的數據可用性
并非所有的數據類型都很容易獲得,尤其是不太傳統的數據類型,比如溫度或手部運動。互聯網是許多AI模型訓練數據的重要來源,它主要由文本、圖像和視頻數據組成。因此,如果您想要制作一個可以處理任何其他類型數據的系統,則必須從私有存儲庫購買或自己制作。
數據很難對齊
正確地對齊多個不同的數據類型通常很困難。數據的大小、規模和結構各不相同,需要仔細處理和集成,以確保它們在單個AI系統中有效地協同工作。
計算密集且昂貴
在很大程度上,多模態之所以成為可能,要歸功于當今前所未有的計算資源。這些模型需要能夠同時處理海量的不同數據類型,這需要大量的計算能力。此外,在應用程序中部署多模態AI還需要強大的硬件基礎設施,這進一步增加了其計算需求和環境足跡。
更重要的是,它通常還很昂貴。單模態模型本身就很昂貴——傳言GPT-3花費了OpenAI近500萬美元,而Meta估計在Llama 2上花費了2000萬美元。多模態比這些模式還要貴“好幾個數量級”。
加劇現有的GenAI問題
常規GenAI模型的許多問題——即偏見、隱私問題、幻覺——在多模態模型中也很普遍。多模態AI實際上可能會加劇這些問題。
在數據集中,偏差幾乎是不可避免的,因此將來自不同來源的數據結合起來可能會導致更明顯和更廣泛的偏差結果。處理不同類型的數據還可能涉及敏感信息,進一步增加數據隱私和安全的風險。此外,整合多種數據的復雜性可能會增加產生不準確或誤導性信息的風險。
這些問題給機器人應用帶來了更大的風險,因為它們的行為會對物理世界產生直接影響。
您的機器人——無論是無人機、汽車還是人形機器人——都將在現實世界中采取某種行動,并產生物理后果。如果您在控制機器人的模型上沒有任何護欄,就有可能出現幻覺或對數據的錯誤解釋,導致機器人采取可能危險或有害的行動。
多模態AI的未來
許多專家認為,最終,多模態可能是實現通用AI(AGI)的關鍵。通用AI是一種理論形式的AI,可以像人類一樣理解、學習和執行任何智力任務。通過結合各種類型的數據,多模態模型可以對周圍的世界形成更全面和全面的理解,這反過來又可以使它能夠在廣泛的任務中應用知識,甚至比人類更好。
史蒂文斯理工學院機械工程系副教授Brendan Englo表示:“在尋求一種看起來更像人類智能的AI時,它必須是多模態的。它必須像人類一樣處理盡可能多的輸入模式——視覺、語言、觸覺、身體動作——并且能夠以與人類相同的智能對所有這些事情做出反應。”
原文標題:Multimodal AI: What It Is and How It Works,作者:Ellen Glover
鏈接:https://builtin.com/articles/multimodal-ai。