P

Paligemma2 10b Mix 224

Developed by google
PaliGemma 2是基於Gemma 2的視覺語言模型,支持圖像和文本輸入,生成文本輸出,適用於多種視覺語言任務。
Downloads 701
Release Time : 11/21/2024

Model Overview

PaliGemma 2是一個升級版的視覺語言模型,整合了Gemma 2的能力,支持多語言,適用於圖像描述、視覺問答、文本閱讀、目標檢測與分割等任務。

Model Features

多任務支持
支持多種視覺語言任務,包括圖像描述、視覺問答、目標檢測與分割等。
多語言支持
支持多種語言的文本生成和問答任務。
高性能微調
提供預訓練和微調版本,適合直接使用或進一步微調。

Model Capabilities

圖像描述
視覺問答
光學字符識別
目標檢測
目標分割
多語言文本生成

Use Cases

圖像理解
圖像描述生成
生成圖像的短描述或詳細描述。
生成符合圖像內容的描述文本。
視覺問答
回答關於圖像內容的問題。
生成準確的答案文本。
文本識別
光學字符識別
識別圖像中的文本內容。
生成圖像中的文本內容。
目標檢測與分割
目標檢測
檢測圖像中的目標並返回邊界框座標。
生成目標的邊界框座標。
目標分割
生成目標的分割區域。
生成目標的分割代碼。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase