谷歌推出PaliGemma 2 mix：用于多任務的視覺語言模型，開箱即用

作者：Omar Sanseviero 2025-02-21 10:00:35

谷歌宣布推出 PaliGemma 2 mix 檢查點。PaliGemma 2 mix 是針對多種任務進行調整的模型，允許直接探索模型功能并將其開箱即用，用于常見用例。

去年 12 月，谷歌推出了 PaliGemma 2 ，這是Gemma系列中的升級版視覺語言模型。該版本包含不同大小（3B、10B 和 28B 參數）的預訓練檢查點，可輕松針對各種視覺語言任務和領域進行微調，例如圖像分割、短視頻字幕、科學問答和文本相關任務，并實現高性能。

2月19日，谷歌宣布推出 PaliGemma 2 mix 檢查點。PaliGemma 2 mix 是針對多種任務進行調整的模型，允許直接探索模型功能并將其開箱即用，用于常見用例。

PaliGemma 2 mix 有什么新功能？

一個模型可完成多項任務：PaliGemma 2 mix 可以解決短字幕和長字幕、光學字符識別 (OCR)、圖像問答、對象檢測和分割等任務。
適合開發人員的尺寸：借助不同的模型尺寸（3B、10B 和 28B 參數）和分辨率（224px 和 448px），使用最適合您需求的模型。
與您喜歡的框架一起使用：利用您喜歡的工具和框架，包括Hugging Face Transformers、Keras、PyTorch、JAX 和Gemma.cpp。

如果已經在使用原始的 PaliGemma 混合檢查點，則可以直接升級到 PaliGemma 2，而無需進行任何更改。該模型根據提示方式執行不同的任務。

效果展示

檢測

任務：檢測（PaliGemma-2-3b-mix-224）
輸入：“detect android\n”

結果

多物體檢測

任務：多目標檢測（PaliGemma-2-3b-mix-224）
輸入：“檢測椅子；桌子\n”

結果

餐廳內物品的多物體檢測

結果：

光學字符識別 (OCR)

任務：多目標檢測（PaliGemma-2-3b-mix-224）
輸入-“ocr\n”

結果：

分割

任務：分割 (PaliGemma-2-3b-mix-224)
輸入-“segment cat\n”

結果

問答

任務：問答 (PaliGemma2-mix-3b-448)
輸入：“答案 en 牛站在哪里？\n”

結果

beach

字幕

輸入：“caption en\n”

結果

a cow standing on a beach next to a sign that says warning dangerous rip current.

光學字符識別 (OCR)

結果：

WARNING
DANGEROUS
RIP CURRENT

立即開始

試用：https://huggingface.co/spaces/google/paligemma2-10b-mix
模型：https://www.kaggle.com/models/google/paligemma-2/
運行：https://ai.google.dev/gemma/docs/paligemma/inference-with-keras
部署：https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/paligemma

責任編輯：張燕妮來源： AIGC Studio

谷歌模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌推出PaliGemma 2 mix：用于多任務的視覺語言模型，開箱即用

PaliGemma 2 mix 有什么新功能？

效果展示

檢測

結果

多物體檢測

結果

結果：

光學字符識別 (OCR)

結果：

分割

結果

問答

結果

字幕

結果

光學字符識別 (OCR)

結果：

立即開始