P

Paligemma2 10b Mix 224

由google開發
PaliGemma 2是基於Gemma 2的視覺語言模型,支持圖像和文本輸入,生成文本輸出,適用於多種視覺語言任務。
下載量 701
發布時間 : 11/21/2024

模型概述

PaliGemma 2是一個升級版的視覺語言模型,整合了Gemma 2的能力,支持多語言,適用於圖像描述、視覺問答、文本閱讀、目標檢測與分割等任務。

模型特點

多任務支持
支持多種視覺語言任務,包括圖像描述、視覺問答、目標檢測與分割等。
多語言支持
支持多種語言的文本生成和問答任務。
高性能微調
提供預訓練和微調版本,適合直接使用或進一步微調。

模型能力

圖像描述
視覺問答
光學字符識別
目標檢測
目標分割
多語言文本生成

使用案例

圖像理解
圖像描述生成
生成圖像的短描述或詳細描述。
生成符合圖像內容的描述文本。
視覺問答
回答關於圖像內容的問題。
生成準確的答案文本。
文本識別
光學字符識別
識別圖像中的文本內容。
生成圖像中的文本內容。
目標檢測與分割
目標檢測
檢測圖像中的目標並返回邊界框座標。
生成目標的邊界框座標。
目標分割
生成目標的分割區域。
生成目標的分割代碼。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase