成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<code id="ovpul"></code>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

300億參數！蘋果推出多模態大模型MM1，能解釋圖像和文本數據

發布于 2024-3-27 16:46

瀏覽

0收藏

在過去的一年里，LLM 因其先進的 AI 能力而備受關注。值得注意的是，蘋果（Apple）公司卻缺席了。

目前，蘋果公司正在談判將谷歌的 Gemini 人工智能引擎植入 iPhone。而蘋果一直致力于開發下一代 LLM，一種可以解釋圖像和文本數據的 LLM。

近日，蘋果的計算機科學家和工程師團隊開發了一種 LLM 模型，聲稱該模型可以解釋圖像和數據。

蘋果構建了一個多模態模型系列——MM1，包括高達 30B 的 dense 變體和高達 64B 的專家混合 (MoE) 變體，它們在預訓練指標中是 SOTA，并在對一系列已建立的多模態基準進行監督微調后獲得具有競爭力的性能。

該研究以《MM1：多模態 LLM 預訓練的方法、分析和見解》（MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training）為題，發表在 arXiv 預印上，描述了他們新的 MM1 系列多模態模型和測試結果。

300億參數！蘋果推出多模態大模型MM1，能解釋圖像和文本數據-AI.x社區論文鏈接：https://arxiv.org/abs/2403.09611

多模態 AI 的工作原理是集成和處理不同類型的數據輸入，例如視覺、聽覺和文本信息。這種集成使人工智能能夠更全面地理解復雜數據，從而比單模態人工智能系統做出更準確和上下文感知的解釋。

蘋果的研究團隊聲稱，他們在 MM1 模型中使用多模態 AI 方面取得了重大進展，該模型集成了文本和圖像數據，以提高圖像字幕、視覺問答和查詢學習的能力。他們的 MM1 是他們所描述的多模態模型系列的一部分，每個模型都包含多達 300 億個參數。

300億參數！蘋果推出多模態大模型MM1，能解釋圖像和文本數據-AI.x社區圖 1：在 MLLM 基準測試中與 SOTA 模型的比較。

300億參數！蘋果推出多模態大模型MM1，能解釋圖像和文本數據-AI.x社區圖 2：MM1 憑借其大規模多模態預訓練可以執行上下文預測。

研究人員指出，此類模型利用由圖像捕獲對、包含圖像和純文本文檔的文檔組成的數據集。

研究人員進一步聲稱，他們的多模態 LLM (MLLM) 可以計算對象、識別圖像中的對象，并利用日常對象的常識為用戶提供有關圖像所呈現內容的有用信息。

300億參數！蘋果推出多模態大模型MM1，能解釋圖像和文本數據-AI.x社區圖 3：MM1 可以跨圖像執行指令和推理。

研究人員還聲稱，他們的 MLLM 能夠進行情境學習，這意味著它不需要每次提出問題時都重新開始；它使用在當前對話中學到的知識。

300億參數！蘋果推出多模態大模型MM1，能解釋圖像和文本數據-AI.x社區圖 4：研究了圖像分辨率和預訓練對監督微調（SFT）性能的影響。

該團隊提供了模型高級功能的示例，其中包括上傳一群朋友在酒吧拿著菜單的圖像，并詢問模型根據菜單中列出的價格為每個人購買一杯啤酒需要多少錢。

研究人員表示，“我們希望所確定的經驗教訓將幫助社區構建超越任何單一特定模型架構或數據策略的強大模型。”

本文轉載自 ??AI超數據??，作者： AI 前沿 ????

原文鏈接：??https://mp.weixin.qq.com/s/hCFcLc1NFjleDF6j5qOb3A??

標簽

贊

收藏

回復

舉報

回復

相關推薦

2萬億訓練數據，120億參數！開源大模型Stable LM 2-12B

Aceryt ? 3991瀏覽 ? 0回復
超越GPT-4V，蘋果多模態大模型上新！

duhorse ? 2648瀏覽 ? 0回復
文本直接生成多視角3D圖像，Meta推出創新模型

Aceryt ? 2588瀏覽 ? 0回復
Scaling Law觸礁「數據墻」？Epoch AI發文預測LLM到2028年耗盡所有文本數據

duhorse ? 2918瀏覽 ? 0回復
ChatGPT等模型瘋狂訓練，最快2026年消耗盡公開文本數據

Aceryt ? 4377瀏覽 ? 0回復
TextCoT：放大增強型多模態富文本圖像理解

AIRoobt ? 3521瀏覽 ? 0回復
「多模態大模型」解讀 | 突破單一文本模態局限

Baihai_IDP ? 3403瀏覽 ? 0回復
?TextCoT：放大增強型多模態富文本圖像理解

AIRoobt ? 3297瀏覽 ? 0回復
MUMU：用文本、圖像引導，多模態圖像生成模型

Aceryt ? 2783瀏覽 ? 0回復
Nature: 受熱力學啟發的人工智能解釋

ceesoft ? 3673瀏覽 ? 0回復
多模態大模型數據分析與實踐

zhcs333 ? 4467瀏覽 ? 0回復
超GPT-4o，1240億參數！最強開源多模態模型 Pixtral Large！

Aceryt ? 2549瀏覽 ? 0回復
多模態大模型數據構造方法

shizhi02 ? 3145瀏覽 ? 0回復
你知道大模型聊天補全和文本生成的區別嗎？

AI探索時代 ? 3622瀏覽 ? 0回復
NVIDIA AI 推出 Fugatto：一個 25 億參數的音頻模型，可從文本和音頻輸入生成音樂、語音和聲音

Halo咯咯 ? 2561瀏覽 ? 0回復
時序+圖像+文本，多模態增強的時序預測模型

海因斯DK ? 5887瀏覽 ? 0回復
2025首篇關于多模態大模型在富文本圖像理解上的全面研究綜述

PaperAgent ? 4660瀏覽 ? 0回復
allenai開源多模態的文檔智能解析大模型（OLMOCR）方法、效果淺析

大模型自然語言處理 ? 3766瀏覽 ? 0回復
Vision-R1：多模態領域的DeepSeek R1-Zero，7B參數比肩OpenAI O1

Syrupup ? 2365瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

社區精華內容

目錄

主站蜘蛛池模板：操操日 | 亚洲欧美一区二区三区国产精品 | 久久国内精品 | 91在线精品视频 | 久久久毛片 | 精品视频免费 | 亚洲精品视频一区 | 国产高清在线精品一区二区三区 | 日本一道本视频 | 日本淫视频 | 久久久久久久久久久国产 | 欧美一级特黄aaa大片在线观看 | 狠狠插狠狠操 | 欧美a级成人淫片免费看 | 欧美日韩综合一区 | 国产日产久久高清欧美一区 | 日韩精品视频在线免费观看 | 一区在线观看 | 亚洲国产中文字幕 | 亚洲综合在线视频 | 好姑娘高清在线观看电影 | 午夜天堂 | 久久久久久久久久久蜜桃 | 91人人在线 | 成人久久久 | 日韩欧美一级片 | 日韩欧美三级电影 | 日本啊v在线 | 视频一区在线观看 | 亚洲iv一区二区三区 | 中文字幕综合 | 九九热精品免费 | 欧美成人激情 | 一级在线| 麻豆久久久久久久 | 久久久蜜臀国产一区二区 | eeuss国产一区二区三区四区 | 国产精品久久久久久一区二区三区 | 国产成人精品一区二区三区视频 | 夜夜精品视频 | 免费三级av |