P

Paligemma 3b Ft Scicap 224

由 google 开发
PaliGemma是一款轻量级视觉语言模型,结合图像和文本输入生成文本输出,支持多语言和多任务处理。
下载量 107
发布时间 : 5/12/2024

模型简介

PaliGemma是一款受PaLI-3启发的多功能视觉语言模型,基于开放组件构建,适用于图像字幕、视觉问答、文本阅读、目标检测和分割等多种任务。

模型特点

多模态输入
支持同时处理图像和文本输入,生成文本输出。
多语言支持
能够处理多种语言的输入和输出,适用于国际化应用场景。
轻量级设计
基于开放组件构建,参数规模适中,适合资源有限的环境。
多功能任务处理
支持多种视觉语言任务,包括问答、字幕生成、分割等。

模型能力

图像字幕生成
视觉问答
目标检测
目标分割
多语言文本生成

使用案例

图像理解
图像字幕生成
为图像生成描述性字幕,支持多种语言。
生成准确且符合图像内容的字幕。
视觉问答
回答关于图像内容的自然语言问题。
提供准确且相关的答案。
目标检测与分割
目标检测
识别图像中的目标并返回其边界框坐标。
精确的目标定位。
目标分割
对图像中的目标进行像素级分割。
生成精确的分割掩码。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase