谷歌推出PaliGemma 2 mix:用于多任務的視覺語言模型,開箱即用
去年 12 月,谷歌推出了 PaliGemma 2 ,這是Gemma系列中的升級版視覺語言模型。該版本包含不同大小(3B、10B 和 28B 參數)的預訓練檢查點,可輕松針對各種視覺語言任務和領域進行微調,例如圖像分割、短視頻字幕、科學問答和文本相關任務,并實現高性能。
2月19日,谷歌宣布推出 PaliGemma 2 mix 檢查點。PaliGemma 2 mix 是針對多種任務進行調整的模型,允許直接探索模型功能并將其開箱即用,用于常見用例。
PaliGemma 2 mix 有什么新功能?
- 一個模型可完成多項任務:PaliGemma 2 mix 可以解決短字幕和長字幕、光學字符識別 (OCR)、圖像問答、對象檢測和分割等任務。
- 適合開發人員的尺寸:借助不同的模型尺寸(3B、10B 和 28B 參數)和分辨率(224px 和 448px),使用最適合您需求的模型。
- 與您喜歡的框架一起使用:利用您喜歡的工具和框架,包括Hugging Face Transformers、Keras、PyTorch、JAX 和Gemma.cpp。
如果已經在使用原始的 PaliGemma 混合檢查點,則可以直接升級到 PaliGemma 2,而無需進行任何更改。該模型根據提示方式執行不同的任務。
效果展示
檢測
- 任務:檢測(PaliGemma-2-3b-mix-224)
- 輸入:“detect android\n”
結果
多物體檢測
- 任務:多目標檢測(PaliGemma-2-3b-mix-224)
- 輸入:“檢測椅子;桌子\n”
結果
- 餐廳內物品的多物體檢測
結果:
光學字符識別 (OCR)
- 任務:多目標檢測(PaliGemma-2-3b-mix-224)
- 輸入-“ocr\n”
結果:
分割
- 任務:分割 (PaliGemma-2-3b-mix-224)
- 輸入-“segment cat\n”
結果
問答
- 任務:問答 (PaliGemma2-mix-3b-448)
- 輸入:“答案 en 牛站在哪里?\n”
結果
beach
字幕
- 輸入:“caption en\n”
結果
a cow standing on a beach next to a sign that says warning dangerous rip current.
光學字符識別 (OCR)
結果:
- WARNING
- DANGEROUS
- RIP CURRENT
立即開始
- 試用:https://huggingface.co/spaces/google/paligemma2-10b-mix
- 模型:https://www.kaggle.com/models/google/paligemma-2/
- 運行:https://ai.google.dev/gemma/docs/paligemma/inference-with-keras
- 部署:https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/paligemma