P

Paligemma2 28b Mix 448

Developed by google
PaliGemma 2是基於Gemma 2的視覺語言模型,支持圖像+文本輸入,輸出文本響應,適用於多種視覺語言任務。
Downloads 198
Release Time : 11/21/2024

Model Overview

PaliGemma 2是對PaliGemma視覺語言模型的升級,融合了Gemma 2模型的能力,支持多語言輸入(圖像+文本)並輸出文本,專為圖像/短視頻描述、視覺問答、文本閱讀、目標檢測與分割等任務的卓越微調性能設計。

Model Features

多任務支持
支持短/長描述生成、光學字符識別、問答、目標檢測與分割等多種任務。
高性能微調
針對多樣化任務集進行了微調,可直接使用或進一步微調。
多語言輸入
支持多語言文本輸入,適用於全球化的應用場景。

Model Capabilities

圖像描述生成
視覺問答
光學字符識別
目標檢測
圖像分割

Use Cases

圖像理解
圖像描述生成
生成圖像的簡短或詳細描述。
支持多種語言描述生成。
視覺問答
回答關於圖像內容的問題。
在AOKVQA-DA基準測試中達到71.2的準確率。
文檔處理
光學字符識別
識別圖像中的文字內容。
在ICDAR 2015 Inc基準測試中F1達到75.9。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase