P

Paligemma2 3b Mix 224

由 google 开发
PaliGemma 2是Google开发的升级版视觉语言模型,结合了Gemma 2的能力,支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
下载量 15.23k
发布时间 : 11/21/2024

模型简介

PaliGemma 2是基于SigLIP视觉模型和Gemma 2语言模型构建的视觉语言模型,支持图像描述、视觉问答、文本阅读、目标检测与分割等任务。

模型特点

多任务支持
支持图像描述、视觉问答、文本阅读、目标检测与分割等多种视觉语言任务。
多语言能力
支持多种语言的文本生成和问答任务。
高分辨率输入
支持224×224和448×448两种分辨率输入,适应不同任务需求。
开放组件构建
基于SigLIP视觉模型和Gemma 2语言模型等开放组件构建,便于研究和扩展。

模型能力

图像描述
视觉问答
文本阅读
目标检测
图像分割
多语言文本生成

使用案例

图像理解
图像描述生成
生成图像的短描述或详细描述,支持多种语言。
高质量的描述文本,适用于图像标注和辅助视觉障碍用户。
视觉问答
回答关于图像内容的问题,支持多语言问答。
准确的答案生成,适用于教育、客服等场景。
文本识别
光学字符识别
识别图像中的文本内容。
高精度的文本识别,适用于文档数字化和自动化处理。
目标检测与分割
目标检测
检测图像中的目标并返回边界框坐标。
精确的目标定位,适用于自动驾驶、安防监控等场景。
图像分割
生成目标区域的分割掩码。
高质量的分割结果,适用于医学影像分析、遥感图像处理等。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase