成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<button id="48q8u"><source id="48q8u"></source></button>

<rt id="48q8u"><tr id="48q8u"></tr></rt>

<li id="48q8u"><source id="48q8u"></source></li>

<code id="48q8u"><wbr id="48q8u"></wbr></code>

<abbr id="48q8u"></abbr>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

Gemini技術報告解讀：從Google多模態大模型看后續大模型應該具備哪些能力

發布于 2024-11-13 16:20

瀏覽

0收藏

大家好，我是HxShine。

前段時間Google推出Gemini多模態大模型，展示了不凡的對話能力和多模態能力，其表現究竟如何呢？

本文對Gemini報告進行分析，總的來說Gemini模型在圖像、音頻、視頻和文本理解方面表現出卓越的能力。其包括 Ultra、Pro 和 Nano 尺寸，能夠適用于從復雜推理任務到設備內存受限用例的各種應用。

不像OpenAI接入多模態能力需要利用多個不同的模型，Google直接在預訓練階段直接接受多模態的輸入是Gemini的特點之一，它能夠直接處理多模態的數據，并且各項指標都還不錯。另外可以看出具備圖文理解等能力后，再結合大模型的對話能力，能夠帶來更驚艷的效果體驗。

一、概述

Title：Gemini: A Family of Highly Capable Multimodal Models

論文地址：https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

1 Motivation

發布Google的能與GPT4競爭的大模型，同時兼具多模態能力，包括文字、圖像、視頻、音頻識別與理解能力。

2 Methods

1）Gemini模型支持4種格式輸入，2種格式輸出

Gemini技術報告解讀：從Google多模態大模型看后續大模型應該具備哪些能力-AI.x社區

特點：同時支持text文本，image圖像，video視頻和audio音頻輸入，支持文本和圖片的輸出?？梢灾苯犹幚硪纛l文件，不需要將音頻轉為文字等。

猜測的訓練方法（張俊林：https://www.zhihu.com/question/633684692/answer/3316675674）：

多模態訓練方法：Gemini是幾種模態一起聯合從頭訓練的，包括文本、圖片、音頻、視頻等。這與目前通常的多模態做法不太一樣，目前的多模態模型一般是使用現成的語言大模型或者經過預訓練過的圖片模型（比如CLIP的圖片編碼部分），然后利用多模態訓練數據在此基礎上加上新的網絡層訓練；如果是幾個模態從頭開始一起訓練，那么按理說應該都遵循next token prediction的模式，就應該是LVM的那個路子，其它模態的數據打成token，然后圖片、視頻等平面數據先轉換成比如16*16=256個token，然后搞成一維線性輸入，讓模型預測next token，這樣就把不同模態在訓練階段統一起來。
解碼結構：Decoder only的模型結構，針對結構和優化目標做了優化，優化目的是大規模訓練的時候的訓練和推理的穩定性，所以大結構應該是類似GPT的Decoder-only預測next token prediction的模式。目前支持32K上下文。
命令理解方面：和GPT一樣，采用多模態instruct數據進行SFT+RM+RLHF三階段，這里的RM部分在訓練打分模型的時候，采用了加權的多目標優化，三個目標helpfulness factuality和 safety，猜測應該是對于某個prompt，模型生成的結果，按照三個指標各自給了一個排序結果。
模型大?。?/strong>從硬件描述部分來看，意思是動用了前所未有的TPU集群，所以推測Gemini Ultra的模型規模應該相當大，猜測如果是MOE大概要對標到GPT 4到1.8T的模型容量，如果是Dense模型估計要大于200B參數?？紤]到引入視頻音頻（當然是來自于Youtube了，難道會來自TikTok么）多模態數據，所以總數據量*模型參數，會是非常巨大的算力要求，技術報告說可以一周或者兩周做一次訓練。
訓練細節：可能分成多個階段，最后階段提高了領域數據的混合配比，猜測應該指的是邏輯和數學類的訓練數據增加了配比，目前貌似很多這么做的，對于提升模型邏輯能力有直接幫助。
代碼能力：AlphaCode2是在Gemini pro基礎上，使用編程競賽的數據fine-tune出來的，效果提升很明顯，在編程競賽上排名超過85%的人類選手，之前的AlphaCode1超過50%的人類選手；

2）Gemini模型有多個版本，最小有1.8B

特點：其中Nano首先從大模型蒸餾，然后4bit量化。Gemini Nano包含兩個版本：1.8B面向低端手機，3.25B面向高端手機。

3 Conclusion

1）文本理解：Ultra性能超過了GPT4

Ultra比gpt4效果好，pro比gpt3.5效果好，MMNLU第一次超過人類專家水平。
Gemini Ultra 在六個不同數據集上都是最佳。Gemini Pro是Gemini系列中的第二大模型，效率更高的同時也頗具競爭力。

2）圖像理解：zero-shot效果超過很多微調后的模型

3）視頻理解：超過之前的few-shot SoTA模型

也是取得了SoTA，特別是英語視頻字幕數據集（VATEXT、YouCook2）上提升比較大，其他感覺提升沒那么大。相關評估指標如下：視頻字幕 -> CIDER，NextQA -> WUPS，Perception Test -> top-1 accuracy，ActivityNet-QA -> ActivityNet-QA。

4）不同版Genmini模型的性能

“事實性” ：涵蓋開放/閉卷檢索和問題回答任務；
“長文本” ：涵蓋長篇摘要、檢索和問題回答任務；
“數學/科學” ：包括數學問題解決、定理證明和科學考試等任務；
“推理” ：需要算術、科學和常識推理的任務；
“多語言” ：用于多語言翻譯、摘要和推理的任務。

Nano2模型很多超過了Pro版本的50%，部分達到90的水平，效果還不錯。

5）多語種翻譯：性能超過GPT4

翻譯能力也是比GPT-4好，WMT23指標中4個有3個超過GPT4的表現。

6）圖像理解數據集：MMMU數據集表現

MMMU（Yue et al., 2023）：是最近發布的評估基準，由6個學科的圖像問題組成，每個學科內有多個主題，需要大學水平的知識來解決這些問題。
Gemini Ultra將最先進的結果提高了 5 個百分點以上，6個學科中有5個學科中超越了之前的最佳成績，展示了其多模態推理能力。

二、詳細內容

1 多模態推理能力：識別手寫答案，對物理問題進行解答

特點：識別書寫結果，這個和OpenAI之前演示的根據草圖寫前端代碼是一樣的，不過識別的準確率是存疑的。

2 多模態推理能力：重新組織子圖順序

Gemini的多模態推理能力可生成用于重新排列子圖的matplotlib代碼。
Prompt：識別當前子圖的結果，重新組織子圖的順序并解釋。

解決此任務需要模型具備以下能力：

(1) 識別圖中描繪的函數；
(2) 逆向圖形來推斷生成子圖的代碼；
(3) 按照指令將子圖放置在所需的位置；
(4) 抽象推理，推斷指數圖必須留在原來的位置，因為正弦圖必須為 3 維圖移動。

3 圖像生成能力：多模態理解+圖像生成

要具備上面的功能需要以下能力：

（1）識別圖像中的顏色。這個難度不大。
（2）生成文字+圖片結果。這個難度好像也沒有那么大，可能有two-stage的實現方法或者end-to-end的實現方法。不太確定google用的哪種方法。

4 語音理解能力：具備語音識別和語音翻譯能力

對比的是OpenAI的Whisper，看著Gemini就是把多個SoTA模型包裝起來了。

5 多模態理解：支持圖片+音頻輸入

這個gptv+加個語音轉文字的模型可以做，這里的特點可能是直接用一個模型就可以解決？

三、多模態能力展示

1 幾何推理能力：求平行四邊形的高

2 視覺多模態推理能力：根據圖片確定地點

3 多語言常識推理：識別中文關系圖

4 視頻理解能力：分析視頻中的人如何提升足球技術

四、總結

?直接支持多模態的能力是Gemini的特點，Google從預訓練階段就統一了多模態大模型的訓練，該策略也可能是后續大模型的發展趨勢，但是其具體實現方法、帶來的增益、以及cost還未知。OpenAI多模態的能力是引入（支持語音）其他模型或者通過插件（支持圖像）來實現。

Gemini的多模態能力比GPT4-V要強，科學推理能力可能稍微弱于GPT4。

圖文理解+視頻理解等多模態能力與最新的大模型強強組合確實能帶來驚艷的效果，但是其穩定性，是否真實能落地還有待進一步觀察。例如結合圖像信息求平行四邊行的高，在教育領域相對于純文本可能會更有價值，但是OCR等技術還面臨魯棒性偏差的問題，Google的模型段時間應該還是沒辦法解決這些問題。

本文轉載自 ??NLP PaperWeekly??，作者： NLP PaperWeekly

標簽
Gemini
技術
多模態

贊

收藏

回復

分享

微博

QQ

微信

舉報
舉報

微信掃碼分享

刪除帖子
刪除取消

回復

相關推薦

大模型不是AI的盡頭，聯想楊元慶稱真正意義的AI PC應該具備5大特征

liutao988 ? 2812瀏覽 ? 0回復
14 項任務測下來，GPT4V、Gemini等多模態大模型竟都沒什么視覺感知能力？

輕薄滴假象 ? 2779瀏覽 ? 0回復
「多模態大模型」解讀 | 突破單一文本模態局限

Baihai_IDP ? 3403瀏覽 ? 0回復
什么是多模態大模型？為什么需要多模態大模型？

AI探索時代 ? 5243瀏覽 ? 0回復
多模態大模型的實現原理，以及技術難點

AI探索時代 ? 5570瀏覽 ? 0回復
多模態與偽多模態大模型

AI探索時代 ? 2627瀏覽 ? 0回復
解讀AI大模型，從了解token開始

ermulong ? 3293瀏覽 ? 0回復
大模型技術基礎學習路線，想要學好大模型應該具備哪些能力？

AI探索時代 ? 3358瀏覽 ? 0回復
大模型技術進階路線，有了基礎應該怎么進階？

AI探索時代 ? 2590瀏覽 ? 0回復
Meta Movie Gen：新的 SOTA 視頻生成模型-技術報告解讀

amei2000go ? 4231瀏覽 ? 0回復
解讀AI大模型，從了解token開始

ermulong ? 2302瀏覽 ? 0回復
怎么設計一個自己的大模型？設計一個大模型需要哪些能力？

AI探索時代 ? 3576瀏覽 ? 0回復
多模態大模型能力評測基準全面綜述：理解、推理、生成、應用、趨勢

十一月雨_55 ? 9753瀏覽 ? 0回復
大模型技術全面解析，從大模型的概念，技術，應用和挑戰多個方面介紹大模型

AI探索時代 ? 1.6w瀏覽 ? 0回復
如何全面評估多模態大模型能力？MLLM評測任務與指標總結

shizhi02 ? 7809瀏覽 ? 0回復
Reyes：一個從0到1開始訓練的多模態大模型（技術報告）

大模型自然語言處理 ? 2396瀏覽 ? 0回復
Google AI發布Gemini 2.0 Flash Thinking 模型

Halo咯咯 ? 2614瀏覽 ? 0回復
大語言模型都有哪些特質？區分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini

angel ? 2338瀏覽 ? 0回復
從Manus到Gemini，首輪Agent競賽中有哪些關鍵信號？

探索AGI ? 1979瀏覽 ? 0回復

arnoldzhw

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

NVIDIA（ProRL）｜RL到底能不能提升LLM的推理上限？ 2天前發布
ACL25 | DOLPHIN，Closed-loop Auto-research系統來幫你自動做科研了！ 2025-06-13 06:42:33發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復
從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復
Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復
本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復
DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：大模型也要"私人定制"？最新綜述帶你解鎖AI的個性化服務 | 綜述！擴散模型：AI藝術創作背后的"魔法引擎"

下一篇：使用MCTS顯著提升LLM在復雜任務的推理能力

社區精華內容

目錄

Copyright ? 2005-2025 51CTO.COM 京ICP證060544版權所有未經許可請勿轉載

客服

感谢您访问我们的网站，您可能还对以下资源感兴趣：
成人免费xxxxx在线视频软件|久久精品久久久|亚洲国产精品久久久|天天色天天色|亚洲人成一区|欧美一级欧美三级在线观看

主站蜘蛛池模板：天天操妹子| 国产精品永久 | 全部免费毛片在线播放网站 | 亚洲欧美精品一区 | 米奇狠狠鲁 | av在线免费观看网站 | www.日韩欧美 | 一区二区三区视频 | 日韩一区二区三区在线播放 | 在线观看国产三级 | www.玖玖玖 | 色偷偷888欧美精品久久久 | 成人精品视频99在线观看免费 | 欧美一区二区三区国产 | 日韩精品一区二区三区中文在线 | 亚洲国产精品成人 | 日韩欧美中文 | 免费国产一区二区 | 欧美在线国产精品 | 精品国产乱码久久久久久久久 | 亚洲综合视频 | 免费一级片| 欧美视频三级 | 国产清纯白嫩初高生视频在线观看 | 黑人巨大精品 | 久久久久久久久蜜桃 | 久久天天 | 99精品视频免费观看 | 欧美在线观看网站 | 夜夜摸夜夜操 | 99九九久久| 国产精品99久久久久久宅男 | 麻豆av在线 | 在线观看亚洲 | 亚洲欧美中文日韩在线v日本 | 国产精品一区二区av | 中文字幕精品一区二区三区精品 | 国产精品一区久久久 | 精品久久久久久久久久久下田 | 一二三四av | 天天久久 |