P

Paligemma 3b Ft Scicap 448

Developed by google
PaliGemma是一款多功能轻量级视觉语言模型,结合图像和文本输入生成文本输出,支持多语言。
Downloads 123
Release Time : 5/13/2024

Model Overview

基于开放组件构建的视觉语言模型,适用于图像字幕、视觉问答、文本阅读、目标检测和分割等多种任务。

Model Features

多功能性
支持多种视觉语言任务,包括问答、字幕生成、分割等。
多语言支持
能够处理多种语言的输入和输出,覆盖35种语言。
轻量级设计
适合在不同场景下进行微调使用,资源需求较低。
开放组件构建
基于SigLIP视觉模型和Gemma语言模型等开放组件构建。

Model Capabilities

图像字幕生成
视觉问答
文本阅读
目标检测
目标分割
多语言处理

Use Cases

图像理解
图像字幕生成
为图像生成描述性字幕,支持多种语言。
在COCO captions验证集上CIDEr得分144.60(448分辨率)
视觉问答
回答关于图像内容的自然语言问题。
在VQAv2测试集上准确率85.64%
文档分析
文档问答
从文档图像中提取信息并回答问题。
在DocVQA测试集上ANLS得分84.77(896分辨率)
文本识别
识别图像中的文本内容。
在TextVQA测试集上准确率76.48%
目标检测与分割
目标检测
检测图像中的特定目标并定位。
在RefCOCO验证集上MIoU 76.94(896分辨率)
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase