Llama3.2開源：Meta發布1B和3B端側模型、11B和90B多模態模型

發布于 2024-9-27 13:22

瀏覽

0收藏

早上起來發現，Meta AI又開源模型，文本模型開源了端側小模型1B和3B模型，也是首次開源了多模態大模型11B和90B兩個版本；同時還開源了一個 Llama Stack項目。

Blog: https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/
HF: https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf

其中Llama3.2多模態模型在圖像識別和一系列視覺理解任務方面效果優于Claude 3 Haiku 和 GPT4o-mini。文本模型-Llama3.2-3B模型在循指令、總結、提示重寫和工具使用等任務上優于 Gemma 2 2.6B 和 Phi 3.5-mini 模型。

Llama3.2開源：Meta發布1B和3B端側模型、11B和90B多模態模型-AI.x社區

多模態模型效果

Llama3.2開源：Meta發布1B和3B端側模型、11B和90B多模態模型-AI.x社區

端側模型效果

多模態模型

Llama3.2的11B和90B模型多模態是基于Llama3.1-8B、70B文本模型上，增量增加圖像模型。

pretrain階段：

文本模塊由Llama3.1模型初始化，并初始化圖像編碼器，利用大規模噪聲（圖像、文本、6B數據對）對數據進行預訓練
再用中等規模的高質量的領域、知識增強的（圖像、文本、3M數據對）數據預訓練。

posting-train階段：

通過監督微調、拒絕采樣和直接偏好優化進行多輪對齊
使用 Llama 3.1 模型過濾和增強圖像上的問題和答案，利用合成數據生成和獎勵模型對所有候選答案打分排序，獲取高質量的微調數據
還添加了安全數據

端側小模型

1B和3B模型都是基于8B模型裁剪后進行模型初始化，并且利用8B和70B模型進行模型蒸餾，9T數據預訓練。

特別注意，這里蒸餾不是那種通過更大模型進行數據生成的蒸餾，而是再模型訓練階段，利用8B 和 70B 模型輸出的 logits 影響模型loss，也就是傳統的蒸餾方法。

Llama3.2開源：Meta發布1B和3B端側模型、11B和90B多模態模型-AI.x社區

在post-traning階段，訓練方式語Llama3.1一致，采樣監督微調、拒絕采樣和直接偏好優化模型。

最后模型支持上下文擴展到 128K 個，同時也針對性優化了模型的多種能力，例如摘要、重寫、指令遵循、語言推理和工具使用。

Llama Stack項目

Github: https://github.com/meta-llama/llama-stack

定義并標準化了將生成式 AI 應用程序推向市場所需的構建模塊，跨越整個開發生命周期：從模型訓練和微調，到評估，再到在生產環境中構建和運行AI Agent。

主要是為了簡化開發人員在不同環境（包括單節點、本地、云和設備上）中使用 Llama 模型的方式，幫助快速實現檢索增強生成、工具使用等能力的快速部署。

本文轉載自 ??NLP工作站??，作者：劉聰NLP

標簽

Llama3.2

開源

模型

贊

回復

舉報

回復

相關推薦

端側實時運行、3B媲美7B！美團、浙大等提出MobileVLM V2：更快、更強的端側視覺語言模型

kcoufee ? 6091瀏覽 ? 0回復
集體出走的Stability AI 發布全新代碼大模型，3B以下性能最優，超越Code Llama和DeepSeek-Coder

pangguiyu ? 4656瀏覽 ? 0回復
大模型參數量都是7B，13B和65B等背后的原因是什么？

Syrupup ? 1.3w瀏覽 ? 0回復
Llama 3來了！首批開源 8B 和 70B兩個版本，未來有望開源400B大模型！

AIGC最前線 ? 1.2w瀏覽 ? 0回復
將端側大模型進行到底-MiniCPM3-4B開源

NLP工作站 ? 2984瀏覽 ? 0回復
Llama 3.2 強勢震撼登場：從 1B 純文本躍至 90B 多模態，成就端側 AI 巔峰杰作

穿越時空111 ? 3744瀏覽 ? 0回復
Meta開源多模態模型——Llama 3.2

Aceryt ? 3012瀏覽 ? 0回復
Mistral AI 發布革命性邊緣模型 Ministral 3B 和8B：性能與隱私雙料俱佳

Syrupup ? 2604瀏覽 ? 0回復
Meta AI發布全新量化版本Llama 3.2（1B & 3B）：推理速度提升2-4倍，模型大小減少56%

Halo咯咯 ? 2696瀏覽 ? 0回復
不只是更快：Ministral 3B和8B如何保障您的數據安全與隱私？

Halo咯咯 ? 2173瀏覽 ? 0回復
AMD 開源 AMD OLMo：完全開源的 1B 語言模型系列

Halo咯咯 ? 2563瀏覽 ? 0回復
Qwen開源強大、多樣、實用的Qwen2.5-Coder系列（0.5B/1.5B/3B/7B/14B/32B）

Halo咯咯 ? 4317瀏覽 ? 0回復
Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型！！（擊敗 Claude 和 GPT-4o）

老蛀蟲 ? 4800瀏覽 ? 0回復
最新端側全模態大模型Megrez-3B-Omni

NLP工作站 ? 3804瀏覽 ? 0回復
Infinigence AI 發布 Megrez-3B-Omni：3B 設備上開源多模態大語言模型 MLLM

Halo咯咯 ? 2392瀏覽 ? 0回復
Megrez-3B-Omni：無問芯穹端側全模態大模型技術剖析與應用指南

穿越時空111 ? 2776瀏覽 ? 0回復
Good Fire AI 針對 Llama 3.1 8B 和 Llama 3.3 70B 的開源稀疏自動編碼器 (SAE)

Halo咯咯 ? 2065瀏覽 ? 0回復
1B模型如何通過測試時優化逆襲405B LLM？

arnoldzhw ? 2160瀏覽 ? 0回復
Kimi開源Moonlight-16B-A3B的MoE模型！！

NLP工作站 ? 2419瀏覽 ? 0回復

NLP工作站

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

Llama3.2開源：Meta發布1B和3B端側模型、11B和90B多模態模型

多模態模型

端側小模型

Llama Stack項目

目錄