P

Paligemma 3b Ft Vqav2 224

由 google 开发
PaliGemma是一款多功能轻量级视觉语言模型,结合图像和文本输入生成文本输出,支持多语言。
下载量 150
发布时间 : 5/12/2024

模型简介

PaliGemma专为视觉语言任务的微调性能而设计,可用于图像和短视频字幕、视觉问答、文本阅读、目标检测和目标分割等多种场景。

模型特点

多功能性
结合图像和文本输入,生成文本输出,支持多语言。
轻量级
基于开放组件构建,易于使用和部署。
高性能
在多种视觉语言任务上表现出色,如问答、字幕生成、分割等。

模型能力

图像字幕生成
视觉问答
目标检测
目标分割
多语言支持

使用案例

图像处理
图像字幕生成
为图像生成描述性字幕,支持多语言。
在COCO captions验证集上CIDEr得分为141.92(224分辨率)
目标检测
检测图像中的目标并生成边界框坐标。
问答系统
视觉问答
回答关于图像内容的问题。
在VQAv2测试集上准确率为83.19%(224分辨率)
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase