Gemini技術報告解讀:從Google多模態大模型看后續大模型應該具備哪些能力
大家好,我是HxShine。
前段時間Google推出Gemini多模態大模型,展示了不凡的對話能力和多模態能力,其表現究竟如何呢?
本文對Gemini報告進行分析,總的來說Gemini模型在圖像、音頻、視頻和文本理解方面表現出卓越的能力。其包括 Ultra、Pro 和 Nano 尺寸,能夠適用于從復雜推理任務到設備內存受限用例的各種應用。
不像OpenAI接入多模態能力需要利用多個不同的模型,Google直接在預訓練階段直接接受多模態的輸入是Gemini的特點之一,它能夠直接處理多模態的數據,并且各項指標都還不錯。另外可以看出具備圖文理解等能力后,再結合大模型的對話能力,能夠帶來更驚艷的效果體驗。
一、概述
Title:Gemini: A Family of Highly Capable Multimodal Models
論文地址:https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
1 Motivation
發布Google的能與GPT4競爭的大模型,同時兼具多模態能力,包括文字、圖像、視頻、音頻識別與理解能力。
2 Methods
1)Gemini模型支持4種格式輸入,2種格式輸出
特點:同時支持text文本,image圖像,video視頻和audio音頻輸入,支持文本和圖片的輸出??梢灾苯犹幚硪纛l文件,不需要將音頻轉為文字等。
猜測的訓練方法(張俊林:https://www.zhihu.com/question/633684692/answer/3316675674):
- 多模態訓練方法:Gemini是幾種模態一起聯合從頭訓練的,包括文本、圖片、音頻、視頻等。這與目前通常的多模態做法不太一樣,目前的多模態模型一般是使用現成的語言大模型或者經過預訓練過的圖片模型(比如CLIP的圖片編碼部分),然后利用多模態訓練數據在此基礎上加上新的網絡層訓練;如果是幾個模態從頭開始一起訓練,那么按理說應該都遵循next token prediction的模式,就應該是LVM的那個路子,其它模態的數據打成token,然后圖片、視頻等平面數據先轉換成比如16*16=256個token,然后搞成一維線性輸入,讓模型預測next token,這樣就把不同模態在訓練階段統一起來。
- 解碼結構:Decoder only的模型結構,針對結構和優化目標做了優化,優化目的是大規模訓練的時候的訓練和推理的穩定性,所以大結構應該是類似GPT的Decoder-only預測next token prediction的模式。目前支持32K上下文。
- 命令理解方面:和GPT一樣,采用多模態instruct數據進行SFT+RM+RLHF三階段,這里的RM部分在訓練打分模型的時候,采用了加權的多目標優化,三個目標helpfulness factuality和 safety,猜測應該是對于某個prompt,模型生成的結果,按照三個指標各自給了一個排序結果。
- 模型大?。?/strong>從硬件描述部分來看,意思是動用了前所未有的TPU集群,所以推測Gemini Ultra的模型規模應該相當大,猜測如果是MOE大概要對標到GPT 4到1.8T的模型容量,如果是Dense模型估計要大于200B參數??紤]到引入視頻音頻(當然是來自于Youtube了,難道會來自TikTok么)多模態數據,所以總數據量*模型參數,會是非常巨大的算力要求,技術報告說可以一周或者兩周做一次訓練。
- 訓練細節:可能分成多個階段,最后階段提高了領域數據的混合配比,猜測應該指的是邏輯和數學類的訓練數據增加了配比,目前貌似很多這么做的,對于提升模型邏輯能力有直接幫助。
- 代碼能力:AlphaCode2是在Gemini pro基礎上,使用編程競賽的數據fine-tune出來的,效果提升很明顯,在編程競賽上排名超過85%的人類選手,之前的AlphaCode1超過50%的人類選手;
2)Gemini模型有多個版本,最小有1.8B
特點:其中Nano首先從大模型蒸餾,然后4bit量化。Gemini Nano包含兩個版本:1.8B面向低端手機,3.25B面向高端手機。
3 Conclusion
1)文本理解:Ultra性能超過了GPT4
- Ultra比gpt4效果好,pro比gpt3.5效果好,MMNLU第一次超過人類專家水平。
- Gemini Ultra 在六個不同數據集上都是最佳。Gemini Pro是Gemini系列中的第二大模型,效率更高的同時也頗具競爭力。
2)圖像理解:zero-shot效果超過很多微調后的模型
3)視頻理解:超過之前的few-shot SoTA模型
- 也是取得了SoTA,特別是英語視頻字幕數據集(VATEXT、YouCook2)上提升比較大,其他感覺提升沒那么大。相關評估指標如下:視頻字幕 -> CIDER,NextQA -> WUPS,Perception Test -> top-1 accuracy,ActivityNet-QA -> ActivityNet-QA。
4)不同版Genmini模型的性能
- “事實性” :涵蓋開放/閉卷檢索和問題回答任務;
- “長文本” :涵蓋長篇摘要、檢索和問題回答任務;
- “數學/科學” :包括數學問題解決、定理證明和科學考試等任務;
- “推理” :需要算術、科學和常識推理的任務;
- “多語言” :用于多語言翻譯、摘要和推理的任務。
Nano2模型很多超過了Pro版本的50%,部分達到90的水平,效果還不錯。
5)多語種翻譯:性能超過GPT4
翻譯能力也是比GPT-4好,WMT23指標中4個有3個超過GPT4的表現。
6)圖像理解數據集:MMMU數據集表現
- MMMU(Yue et al., 2023):是最近發布的評估基準,由6個學科的圖像問題組成,每個學科內有多個主題,需要大學水平的知識來解決這些問題。
- Gemini Ultra將最先進的結果提高了 5 個百分點以上,6個學科中有5個學科中超越了之前的最佳成績,展示了其多模態推理能力。
二、詳細內容
1 多模態推理能力:識別手寫答案,對物理問題進行解答
特點:識別書寫結果,這個和OpenAI之前演示的根據草圖寫前端代碼是一樣的,不過識別的準確率是存疑的。
2 多模態推理能力:重新組織子圖順序
- Gemini的多模態推理能力可生成用于重新排列子圖的matplotlib代碼。
- Prompt:識別當前子圖的結果,重新組織子圖的順序并解釋。
解決此任務需要模型具備以下能力:
- (1) 識別圖中描繪的函數;
- (2) 逆向圖形來推斷生成子圖的代碼;
- (3) 按照指令將子圖放置在所需的位置;
- (4) 抽象推理,推斷指數圖必須留在原來的位置,因為正弦圖必須為 3 維圖移動。
3 圖像生成能力:多模態理解+圖像生成
要具備上面的功能需要以下能力:
- (1)識別圖像中的顏色。這個難度不大。
- (2)生成文字+圖片結果。這個難度好像也沒有那么大,可能有two-stage的實現方法或者end-to-end的實現方法。不太確定google用的哪種方法。
4 語音理解能力:具備語音識別和語音翻譯能力
對比的是OpenAI的Whisper,看著Gemini就是把多個SoTA模型包裝起來了。
5 多模態理解:支持圖片+音頻輸入
這個gptv+加個語音轉文字的模型可以做,這里的特點可能是直接用一個模型就可以解決?
三、多模態能力展示
1 幾何推理能力:求平行四邊形的高
2 視覺多模態推理能力:根據圖片確定地點
3 多語言常識推理:識別中文關系圖
4 視頻理解能力:分析視頻中的人如何提升足球技術
四、總結
- ?直接支持多模態的能力是Gemini的特點,Google從預訓練階段就統一了多模態大模型的訓練,該策略也可能是后續大模型的發展趨勢,但是其具體實現方法、帶來的增益、以及cost還未知。OpenAI多模態的能力是引入(支持語音)其他模型或者通過插件(支持圖像)來實現。
- Gemini的多模態能力比GPT4-V要強,科學推理能力可能稍微弱于GPT4。
- 圖文理解+視頻理解等多模態能力與最新的大模型強強組合確實能帶來驚艷的效果,但是其穩定性,是否真實能落地還有待進一步觀察。例如結合圖像信息求平行四邊行的高,在教育領域相對于純文本可能會更有價值,但是OCR等技術還面臨魯棒性偏差的問題,Google的模型段時間應該還是沒辦法解決這些問題。
本文轉載自 ??NLP PaperWeekly??,作者: NLP PaperWeekly
