蘋果研發多模態AI,這是研究人員迄今發現的結果
譯文譯者 | 布加迪
審校 | 重樓
如果我告訴你,在最近熱議的多模態AI背后,蘋果正在悄然醞釀一場革命,你會作何感想?蘋果的一群研究人員一直在系統地研究如何構建功能最強大的多模態模型,揭露了質疑傳統智慧的重要見解。現在他們讓我們有機會一窺底層的細節。
他們的研究工作可能會改變我們對待多模態項目的視角。但要理解其中的原因,你需要搞清楚其研究方法和發現結果的細節。以下是本人對蘋果研究論文的解讀。
本人在這篇文章中將介紹以下內容:
- 他們測試的架構方面的具體取舍以及真正最重要的方面。
- 他們如何以一種非常有意識的方式混合數據來實現最先進的小樣本(few-shot)學習。
- 為什么他們的擴展定律和訓練方法對于任何建立多模態模型的人都至關重要。
- 證明蘋果模型的出色功能的具體例子,從多圖像推理到OCR。
- 本人對這項研究工作的潛在影響所持的看法,以及它提出的一些開放性問題。
本文將給出嚴謹的技術解讀和通俗易懂的主旨概述。最后,你對這項開創性的研究以及它如何改變AI未來會有一番清晰的認識。
引言
多模態AI已經取得了快速發展,Flamingo、EMu2和MoLLa等模型展示了結合視覺和語言理解的潛力。然而,許多這些模型并沒有深入地揭示其架構選擇和訓練過程背后的基本原理。
蘋果的MM1論文介紹了一系列多模態AI模型,深入解釋了如何構建結合視覺和語言理解的高性能系統。通過廣泛的消融研究和系統實驗,該團隊發現了構建高性能多模態模型方面的關鍵見解。他們的發現結果揭示了不同架構選擇、數據混合策略和擴展方法的相對重要性。
通過分享最先進的小樣本學習的“配方”,論文作者們使更廣泛的研究社區能夠在他們的研究工作基礎上更有作為。從長遠來看,這里的開創性技術可以推動將視覺和語言理解深度整合的新一代基礎模型。
本人在本文中將逐步介紹論文的關鍵部分,涵蓋他們的方法、結果、討論和結論;也將解釋技術細節,同時提供淺顯的解讀,主要圍繞主旨及其意義。在此過程中,本人將分享自己的分析,并著重介紹這項研究工作提出的一些開放式問題。
技術解釋
論文作者著手研究如何構建高性能的多模態語言模型(MLLM)。他們系統地分析了兩個關鍵因素:1)架構組件,比如圖像編碼器和視覺語言連接器;2)預訓練中的數據選擇。
為了有效地評估設計方面的選擇,他們使用擁有12億參數LLM的基本配置。他們通過每次修改一個組件,面對VQA和字幕任務評估零樣本和小樣本性能的影響來進行消融。
就架構而言,他們測試不同的預訓練圖像編碼器(不同的目標、數據和分辨率)和視覺語言連接器。就視覺語言連接器而言,他們測試了平均池化、注意力池化和一個叫做C-Abstractor的卷積ResNet塊。令人驚訝的是,特定的連接器架構對性能幾乎沒有影響。就預訓練數據而言,他們結合使用帶字幕的圖像、交錯的圖像-文本文檔和純文本數據。
結果
圖1. MM1可以跨圖像執行指令和推理。來自VILA的示例和圖像。在思維鏈的提示下,VILA正確回答
與Flamingo、IDEFICS、EMu2相比,最終的MM1系列可擴展至300億個參數,在關鍵基準測試中獲得了SOTA小樣本測試結果。
至于架構方面,研究人員發現(按重要性排序):
- 圖像分辨率具有最大的影響,從224px到336px有約3%的提升。
- 圖像編碼器大小和預訓練數據也很重要,從ViT-L到ViT-H提升幅度小于1%。
- 視覺語言連接器設計選擇的影響可以忽略不計。
至于預訓練數據方面:
- 交錯數據對于小樣本和純文本性能至關重要,可以提升10%以上。
- 字幕數據改善零樣本最明顯。
- 合成字幕幫助小樣本(+2-4%)。
- 仔細混合模態(5:5:1比例的字幕,交錯和文本)效果最好。
與Flamingo、IDEFICS、EMu2相比,最終的MM1模型可以擴展到300億參數,在關鍵基準測試中獲得了SOTA小樣本結果。
論文作者證明了他們在監督式微調(SFT)后獲得的訓練前見解。MM1表現出令人信服的特性,比如多圖像推理、OCR和上下文小樣本學習。
有意架構和數據選擇的MM1配方在擴展后帶來了高性能。論文作者希望這些見解能夠適用于具體實現之外的更廣泛環境。
淺顯的解釋
要點是,蘋果的研究人員做了一系列實驗,以查明構建能理解圖像和文本的AI模型的最佳方法。
他們測試了不同的模型組件,比如編碼圖像的部分和連接圖像和文本的部分。他們發現有些方面很重要(圖像分辨率和編碼器大小/數據),而其他方面其實不重要(連接器設計)。
在訓練模型時,他們還嘗試混合不同類型的數據。比如加有字幕的圖形、文本和圖片混合在一起的文檔以及純文本。關鍵似乎要有多樣性——這有助于模型處理不同的情況,比如描述圖像或回答問題。
當他們把這一切結合在一起,使模型變得非常大(300億參數)時,它最擅長從僅僅幾個例子中學習。它擁有一些出色的功能,比如針對多個圖像進行推理、讀取圖像中的文本,甚至解釋自己的輸出。
簡而言之,秘密武器是有意地處理模型組件和訓練數據。通過分享這一秘訣,這些研究人員正在為新一代功能強大的多模態AI系統鋪平道路。
批判性分析
不妨考慮一下MM1研究工作的幾處注意事項和限制:
- 評估基準:論文作者特別指出,當前的評估集以字幕為中心。為此優化的模型可能無法推廣到其他多模態任務。我們需要更多樣化的基準。
- 擴展定律:將超參數外推到更大的規模有風險。可能會出現小規模測試中并未出現的穩定性問題。在訓練大模型時,需要仔細監控。
- 合成數據:雖然合成字幕有幫助,但生成的數據有限制。過度優化可能會導致奇怪的失效模式。使用須謹慎。
- 偏見/公平性:沒有分析輸出或訓練數據中的社會偏見。為了負責任的部署,這需要仔細審查,尤其是針對從網上抓取的數據。
- 硬件訪問:消融使用了一個有12億參數的型號,但最終系統是300億參數。在算力有限的情況下,獲得的見解可能不太適用。我們還需要研究“小模型”設計。
論文作者確實承認有改進的余地,比如擴展視覺編碼器、改進視覺語言橋接和迭代評估套件。
除了研究人員承認的局限性外,本人認為關于MM1方法還有一些更深層次的問題值得討論。比如說,嚴重依賴從網上抓取的數據讓人們對訓練集的代表性和潛在偏見引發擔憂。同樣值得考慮的是,這里確定的特定架構選擇和擴展定律是否可以推廣到視覺和語言之外的其他模態,或者擴大到更開放的生成式任務。在這個領域參與這些更廣泛的辯論將加強這項研究工作的影響。
結論
我們能從蘋果的MM1論文中學到什么呢?
首先,這篇論文為訓練高性能的多模態模型提供了更清晰的路線圖。如果深思熟慮架構和數據選擇,并認真擴展,我就能發掘出色的小樣本學習和推理能力。
其次,論文提出了該領域的關鍵的開放性問題。我們如何建立全面測試多模態技能的基準?對于通用模型來說,數據模式和任務的正確組合是什么?在保持性能的情況下,我們又可以將模型尺寸做得多小?
三是,論文為基礎多模態模型方面的開放研究確立了新標準。通過詳細介紹訓練過程和釋放消融,作者使業界能夠復制和擴展他們的研究工作。這對加快整個行業的進展至關重要。
展望未來,MM1論文有望成為多模態AI研究領域的一塊重要里程碑。通過為模型設計和訓練提供嚴謹的經驗基礎,論文為該領域的未來發展奠定了基礎。雖然它是否會帶來類似于GPT-4的變革性影響還有待觀察,但本文給人的見解可以指導研究人員繼續推動多模態系統的最高性能。當然,實現這個潛力將需要持續的努力來利用和擴展這些發現結果,同時也竭力解決上面強調的局限性和開放性問題。
就本人而言,我很期待看到這方面會帶來怎樣的發展。
原文標題:Apple is working on multimodal AI. Here's what they've uncovered so far,作者:Mike Young