P

Paligemma 3b Ft Nlvr2 224

由 google 开发
PaliGemma是一款多功能轻量级视觉语言模型(VLM),支持多语言输入输出,擅长图像字幕、视觉问答等多种视觉语言任务。
下载量 2,056
发布时间 : 5/13/2024

模型简介

PaliGemma是基于开放组件(如SigLIP视觉模型和Gemma语言模型)构建的视觉语言模型,能够处理图像和文本输入并生成文本输出。

模型特点

多功能性
支持多种视觉语言任务,如图像和短视频字幕、视觉问答、目标检测和目标分割。
多语言支持
能够处理多种语言的输入和输出。
轻量级设计
基于开放组件构建,具有高效的性能。
数据责任过滤
训练数据经过严格过滤,确保内容质量和安全性。

模型能力

图像字幕生成
视觉问答
目标检测
目标分割
多语言文本生成
图像理解

使用案例

内容生成
多语言图像字幕
为图像生成不同语言的描述性字幕
输出示例:'Un auto azul estacionado frente a un edificio.'(西班牙语)
视觉理解
视觉问答
回答关于图像内容的自然语言问题
计算机视觉
目标检测
识别图像中的对象并输出边界框坐标
目标分割
识别图像中的对象并输出分割码字
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase