P

Paligemma2 28b Mix 448

由google開發
PaliGemma 2是基於Gemma 2的視覺語言模型,支持圖像+文本輸入,輸出文本響應,適用於多種視覺語言任務。
下載量 198
發布時間 : 11/21/2024

模型概述

PaliGemma 2是對PaliGemma視覺語言模型的升級,融合了Gemma 2模型的能力,支持多語言輸入(圖像+文本)並輸出文本,專為圖像/短視頻描述、視覺問答、文本閱讀、目標檢測與分割等任務的卓越微調性能設計。

模型特點

多任務支持
支持短/長描述生成、光學字符識別、問答、目標檢測與分割等多種任務。
高性能微調
針對多樣化任務集進行了微調,可直接使用或進一步微調。
多語言輸入
支持多語言文本輸入,適用於全球化的應用場景。

模型能力

圖像描述生成
視覺問答
光學字符識別
目標檢測
圖像分割

使用案例

圖像理解
圖像描述生成
生成圖像的簡短或詳細描述。
支持多種語言描述生成。
視覺問答
回答關於圖像內容的問題。
在AOKVQA-DA基準測試中達到71.2的準確率。
文檔處理
光學字符識別
識別圖像中的文字內容。
在ICDAR 2015 Inc基準測試中F1達到75.9。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase