P

Paligemma2 10b Pt 224

由 google 开发
PaliGemma 2是一款视觉语言模型(VLM),结合了Gemma 2模型的能力,能够同时处理图像和文本输入,并生成文本输出,支持多种语言。适用于图像和短视频字幕、视觉问答、文本阅读、目标检测和目标分割等多种视觉语言任务。
下载量 3,362
发布时间 : 11/21/2024

模型简介

PaliGemma 2是PaliGemma视觉语言模型的更新版本,融合了Gemma 2模型的能力。它基于开放组件构建,如SigLIP视觉模型和Gemma 2语言模型,旨在在广泛的视觉语言任务上实现领先的微调性能。

模型特点

多模态处理
能够同时处理图像和文本输入,并生成文本输出。
多语言支持
支持多种语言,适用于不同地区的用户。
高性能微调
设计用于在各种视觉语言任务上实现领先的微调性能。
开放组件构建
基于SigLIP视觉模型和Gemma 2语言模型构建,具有高度的灵活性和可扩展性。

模型能力

图像字幕生成
视觉问答
文本阅读
目标检测
目标分割
多语言处理

使用案例

图像和视频理解
图像字幕生成
为图像生成描述性字幕。
在COCO-35L数据集上,英语字幕得分为142.4(10B模型)。
短视频字幕
为短视频生成描述性字幕。
在ActivityNet-CAP数据集上得分为35.9(10B模型)。
视觉问答
开放知识视觉问答
回答需要外部知识的视觉问题。
在AOKVQA-DA验证集上得分为68.9(10B模型)。
科学问题回答
回答科学相关视觉问题。
在ScienceQA数据集上准确率达98.2%(10B模型)。
文档处理
文档问答
回答基于文档图像的问题。
在DocVQA验证集上得分为43.9(224分辨率10B模型)。
表格理解
解析和理解表格图像。
在FinTabNet数据集上TEDS得分为98.94(3B模型)。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase