P

Paligemma 3b Ft Scicap 448

由 google 开发
PaliGemma是一款多功能轻量级视觉语言模型,结合图像和文本输入生成文本输出,支持多语言。
下载量 123
发布时间 : 5/13/2024

模型简介

基于开放组件构建的视觉语言模型,适用于图像字幕、视觉问答、文本阅读、目标检测和分割等多种任务。

模型特点

多功能性
支持多种视觉语言任务,包括问答、字幕生成、分割等。
多语言支持
能够处理多种语言的输入和输出,覆盖35种语言。
轻量级设计
适合在不同场景下进行微调使用,资源需求较低。
开放组件构建
基于SigLIP视觉模型和Gemma语言模型等开放组件构建。

模型能力

图像字幕生成
视觉问答
文本阅读
目标检测
目标分割
多语言处理

使用案例

图像理解
图像字幕生成
为图像生成描述性字幕,支持多种语言。
在COCO captions验证集上CIDEr得分144.60(448分辨率)
视觉问答
回答关于图像内容的自然语言问题。
在VQAv2测试集上准确率85.64%
文档分析
文档问答
从文档图像中提取信息并回答问题。
在DocVQA测试集上ANLS得分84.77(896分辨率)
文本识别
识别图像中的文本内容。
在TextVQA测试集上准确率76.48%
目标检测与分割
目标检测
检测图像中的特定目标并定位。
在RefCOCO验证集上MIoU 76.94(896分辨率)
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase