多模態競技場對標90B Llama 3.2！Pixtral 12B技術報告全公開

作者：新智元 2024-11-19 14:40:00

人工智能新聞

以開源極客之姿殺入江湖的Mistral AI，在9月份甩出了自家的首款多模態大模型Pixtral 12B，如今，報告之期已至，技術細節全公開。

作為歐洲的OpenAI，Mistral最近壓力不小。

端側小模型端不出來，對比評測的結果又遭到質疑。

上個月震撼登場的自家首款多模態大模型Pixtral 12B，也疑似遇到了成績不如人的窘境。

不過世間紛擾，留待時間之中去見分曉。

畢竟Mistral AI當年也是以開源極客之姿殺入江湖的，以后的以后，圈內人總會想起有個一言不合就甩出磁力鏈的公司吧。

按照慣例，在9月份甩出多模態Pixtral 12B的開源鏈接之后，Mistral會在一段時間后放出技術報告。

我們來看一下Mistral家的第一個MMLM有什么新花樣。

論文地址：https://arxiv.org/abs/2410.07073

開源代碼：https://github.com/mistralai

首先，許多開源模型一般有個問題，就是為了多模態的性能而犧牲了本身的自然語言性能，之前英偉達的NVLM 1.0也談到了這點。

Pixtral本次也是成功避開了這個缺陷，單單比較文本模型的性能，也在同等尺寸的模型中居于前列。

另一點與大多數模型不同的是，Pixtral選擇從頭開始訓練了一個全新的視覺編碼器。

基于此，Pixtral 12B輸入圖片的分辨率和長寬比不受任何限制，并且在128K的上下文窗口范圍內，想放多少張圖片都行！

從論文的測試結果來看，Pixtral 12B明顯優于其他類似大小的開源模型（比如Llama-3.2 11B和Qwen-2-VL 7B），

甚至在一些評測中，表現比Meta家的多模態老大哥Llama-3.2 90B還要好。

最后，與開源模型一起，Mistral還貢獻了一個開源基準測試MM-MT-Bench，用于在實際場景中評估視覺語言模型。

技術細節

當前的多模態大模型基本上都是：模態編碼器 + 投影模塊 + 大語言模型主干。

如果需要多模態輸出，后面還會對稱地拼接投影層和各種解碼器。

所以，在模型結構方面，我們可以分部分來看Pixtral都做了哪些工作。

模型結構

Pixtral 12B整體為Transformer架構，在大規模交錯圖像和文本文檔上進行了預訓練，具備多輪、多圖像對話的能力。

多模態解碼器

Pixtral的大語言模型主干選擇了自家的Mistral Nemo 12B，decoder-only架構。

內部維度14336，層數40，32個頭分為4組（GQA），詞表大小131072。

視覺編碼器

視覺編碼器部分是隨Pixtral 12B一起新鮮出爐的PixtralViT。

顧名思義，采用ViT架構打底，4億參數量。同時為了能夠處理各種分辨率和縱橫比的圖像，作者對標準架構進行了四項關鍵更改：

Break tokens：為了幫助模型區分具有相同patch數量（相同區域）但縱橫比不同的圖像，需要在圖像行之間加入[IMAGE BREAK]，在圖像序列的末尾加上[IMAGE END]。

FFN中的門控：在隱藏層中使用門控，而非注意力塊中的標準前饋層。
序列打包：為了在單個批次中有效地處理圖像，作者沿序列維度將圖像展平并連接起來，并構建了一個塊對角掩碼，以確保來自不同圖像的patch之間沒有注意力泄漏。

RoPE-2D：在自注意層中用相對旋轉位置編碼代替傳統的絕對位置嵌入。雖然必須對學習到的位置嵌入進行插值以處理新的圖像大小（通常以犧牲性能為代價），但相對位置編碼自然而然地適合可變的圖像大小。

RoPE-2D的變換可以表示為：

這樣的設計可以自然地以原始縱橫比適應高分辨率和低分辨率圖像，從而顯著提高多模態任務的性能。

相比之下，傳統的編碼器一般就是針對ImageNet訓練的，分辨率為224 × 224或336 × 336。

當應用到多模態語言模型（需要靈活執行標準分類任務，或者光學字符識別等任務）時，通常會將圖像分解成更小的方塊，然后再獨立地將圖塊饋送到視覺編碼器。

完整架構

Pixtral的視覺編碼器通過兩層全連接網絡連接到多模態解碼器（LLM）。MLP層維度不變，用于將視覺編碼器的輸出轉換為解碼器所需的輸入嵌入大小，激活函數為GeLU。

多模態解碼器對圖像token的處理方式與文本token相同，包括所有token的RoPE-1D位置編碼。解碼器使用了因果自注意力機制，能夠平滑地促進多圖像對話等能力。

MM-MT-Bench

大多數現有的多模態基準測試，衡量的是模型在給定輸入圖像的情況下執行某種形式的多項選擇問答的能力。

這種能力有用，但還不夠。

大模型說到底是給人用的，比如有多模態能力的小助手或者聊天機器人。

在純文本領域，MT-Bench可以很好衡量這種性能，它采用獨立LLM裁判根據參考答案對模型的輸出進行評分。

本文中，研究人員構建并發布了一個名為多模態MT-Bench（MM-MT-Bench）的新基準測試，風格與純文本的MT-Bench類似，以評估指令調整的多模態模型的性能。

MM-MT-Bench總共包含92個對話（單回合對話69個，2回合對話18個，3回合對話4個，4回合對話1個），涵蓋了廣泛的實際使用案例，包括五類圖像：圖表、表格、PDF頁面、示意圖和雜項。

為了評估模型，研究人員在對話的所有輪次中并行查詢模型，為過去的輪次提供參考答案作為歷史記錄。裁判會獨立對每個回合進行評分，并提供整個對話歷史記錄。

評分依據正確性（提取的信息是否正確）和完整性（標準答案是否涵蓋了參考文獻中提出的所有要點）以1到10的等級為對話進行評分。

MM-MT-Bench旨在模擬視覺語言模型的實際使用，用于提取、總結和推理圖像內容。

作者手動整理了圖像、提示和答案，并驗證了標簽編寫者的答案，確保所有提示都需要參考圖像輸入才能正確回答。

實驗測試結果表明，MM-MT-Bench的性能與LMSys Vision排行榜上的ELO排名高度相關。

實驗結果

在評估Pixtral和基線的過程中，作者發現多模態模型的評估協議沒有標準化，設置中的微小變化可能會極大地改變某些模型的性能（比如要求模型生成與參考答案完全匹配時，6.0和6就可能是不同的）。

為了緩解這個問題，作者建議使用「Explicit」提示來明確指定參考答案所需的格式。

多模態性能

上表顯示，在多模態基準測試中，Pixtral的性能大大優于所有同尺寸的開源模型，以及Claude-3 Haiku和Gemini-1.5 Flash 8B等閉源模型。

值得注意的是，Pixtral在針對實際用例的MM-MT-Bench上的表現優于所有同等尺寸的模型，而在LMSys Vision排行榜上，Pixtral 12B的性能接近最大的開源模型，Qwen2-VL 72B和Llama-3.2 90B。

不過，由于「Explicit」提示的原因，一些開源模型的性能遠低于其報告的數字，這主要是由于模型沒有遵循答案格式說明（例如，生成「The answer is 6.」而不是「Final answer：6」）。

為了與這些模型進行透明的比較，下面使用更寬松的指標進一步評估。

語言性能

上表展示了在常見的純文本基準測試（使用常見的提示和評估協議）中，Pixtral 12B與同等大小開源模型的比較結果。Pixtral沒有為了追求多模態功能而犧牲文本理解，可以作為文本和視覺任務的通用模型。

責任編輯：張燕妮來源：新智元

AI 技術

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多模態競技場對標90B Llama 3.2！Pixtral 12B技術報告全公開

技術細節

模型結構

MM-MT-Bench

實驗結果