Llama 3.2：AI視覺革新，手機也能跑大模型

sbf_2000

發(fā)布于 2024-9-26 15:57

瀏覽

0收藏

Meta最新發(fā)布的Llama 3.2不僅能"看"，還能在你的手機上運行。這次更新帶來了多模態(tài)支持的Llama Vision和專為設備端優(yōu)化的"tiny"模型，共推出10個新模型，規(guī)模從1B純文本到90B多模態(tài)（文本+圖像）不等。

Llama 3.2的核心亮點：

1.Llama 3.2 Vision：推出11B和90B兩種規(guī)模的多模態(tài)模型，支持文本+圖像輸入并生成文本輸出。這些模型基于Llama 3.1文本模型，通過6B圖像-文本對訓練而成。

2.Llama 3.2 Edge：專為高效本地部署設計的1B和3B多語言純文本模型。

3.所有Llama 3.2模型均支持128k token的超長上下文。

4.新訓練方法：通過知識蒸餾和剪枝技術，從8B/70B模型中提煉出高效的1B/3B模型。

5.Llama Guard 3.2：兩個增強版安全守護模型，新增視覺支持功能。

6.性能突破：Llama 3.2 3B模型在IFEval評測中達到了Llama 3.1 8B的水平，為設備端RAG或智能代理應用提供了強大支持。

Llama 3.2的發(fā)布標志著邊緣AI和視覺技術的新紀元。此次更新引入了小型和中型視覺大語言模型（11B和90B），以及適用于移動設備的輕量級文本模型（1B和3B）。這些模型支持高達128K的上下文長度，旨在實現(xiàn)本地處理的即時性與隱私保護，滿足用戶在摘要、指令跟隨和文本重寫等任務中的需求。

Llama 3.2：AI視覺革新，手機也能跑大模型-AI.x社區(qū)

在圖像理解領域，Llama 3.2的視覺模型表現(xiàn)出色，能夠處理文檔級理解、圖表解讀及圖像標注等任務。通過與大語言模型的無縫對接，用戶可以直接用自然語言提問，模型將結合圖像信息提供精確的答案。此外，這些模型通過在本地運行，保證了數(shù)據(jù)的私密性，使得應用程序在安全性和效率上都得到了極大的提升。

Llama 3.2：AI視覺革新，手機也能跑大模型-AI.x社區(qū)

Llama 3.2的架構創(chuàng)新使其在處理圖像與文本的結合時表現(xiàn)更為出色。通過引入適配器技術，模型不僅保持了文本處理的強大能力，還增添了對圖像的深度理解與推理能力。Meta還與多家合作伙伴共同開發(fā)了Llama Stack分發(fā)版，簡化了開發(fā)者在不同環(huán)境下的使用流程，推動了生成式AI的可用性與創(chuàng)新性。

Llama 3.2：AI視覺革新，手機也能跑大模型-AI.x社區(qū)