P

Paligemma 3b Ft Rsvqa Lr 224

由 google 开发
PaliGemma是一款多功能轻量级视觉语言模型(VLM),结合图像和文本输入生成文本输出,支持多语言。
下载量 223
发布时间 : 5/12/2024

模型简介

PaliGemma基于开放组件构建,适用于多种视觉语言任务,如图像和短视频字幕、视觉问答、文本阅读、目标检测和目标分割等。

模型特点

多模态输入
同时处理图像和文本输入,生成文本输出
多任务支持
支持多种视觉语言任务,包括字幕生成、视觉问答、目标检测和分割等
多语言能力
支持多种语言处理,适用于国际化应用场景
轻量级设计
30亿参数的轻量级模型,适合多种部署场景

模型能力

图像字幕生成
视觉问答
目标检测
目标分割
多语言处理
文本阅读

使用案例

内容生成
多语言图像字幕
为图像生成多种语言的描述性字幕
在COCO-35L数据集上CIDEr分数达141.2(英语)
视觉问答
复杂视觉问题回答
回答关于图像内容的复杂问题
在VQAv2测试集上准确率达85.64%
文档分析
文档视觉问答
从文档图像中提取信息并回答问题
在DocVQA测试集上ANLS达84.77
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase