P

Paligemma 3b Ft Widgetcap 224

由 google 开发
PaliGemma是一款多功能轻量级视觉语言模型,结合图像和文本输入生成文本输出,支持多语言,在多种视觉语言任务中表现出色。
下载量 135
发布时间 : 5/13/2024

模型简介

PaliGemma是一款基于开放组件构建的视觉语言模型,能够处理图像字幕、视觉问答、文本阅读、目标检测和分割等多种任务。

模型特点

多功能性
能够处理多种视觉语言任务,如图像和短视频字幕、视觉问答、文本阅读、目标检测和目标分割。
轻量级
基于开放组件构建,具有高效的性能。
多语言支持
支持多种语言的输入和输出。

模型能力

图像字幕生成
视觉问答
文本阅读
目标检测
目标分割

使用案例

图像理解
图像字幕生成
为图像生成描述性字幕,支持多种语言。
高质量的多语言图像描述
视觉问答
回答关于图像内容的自然语言问题。
准确的问题回答
目标检测与分割
目标检测
检测图像中的目标并返回边界框坐标。
精确的目标定位
目标分割
对图像中的目标进行像素级分割。
精细的目标分割
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase