P

Paligemma 3b Ft Cococap 224

由 google 开发
PaliGemma是一款多功能轻量级视觉语言模型(VLM),支持多语言输入输出,适用于多种视觉语言任务。
下载量 209
发布时间 : 5/13/2024

模型简介

PaliGemma基于开放组件构建,结合了SigLIP视觉模型和Gemma语言模型,能够处理图像和短视频字幕、视觉问答、文本阅读、目标检测和分割等任务。

模型特点

多功能性
能够处理多种视觉语言任务,如问答、字幕生成、分割等。
多语言支持
支持多种语言的输入和输出。
轻量级设计
模型参数相对较少,便于在不同设备上进行研究和应用。

模型能力

图像字幕生成
视觉问答
文本阅读
目标检测
目标分割

使用案例

多媒体处理
图像字幕生成
为图像或短视频生成多语言字幕。
生成准确描述图像内容的字幕
视觉问答
回答关于图像内容的自然语言问题。
提供准确的问题答案
计算机视觉
目标检测
检测图像中的目标并输出边界框坐标。
精确识别和定位图像中的目标
目标分割
对图像中的目标进行像素级分割。
生成精确的目标分割掩码
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase