P

Paligemma2 3b Mix 448

由 google 开发
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像与文本输入,输出生成文本,适用于多种视觉语言任务。
下载量 20.55k
发布时间 : 11/21/2024

模型简介

PaliGemma 2是升级版的视觉语言模型,结合了Gemma 2和SigLIP视觉模型的能力,支持多语言,专为图像描述、视觉问答、文本阅读、目标检测与分割等任务设计。

模型特点

多任务支持
支持多种视觉语言任务,包括图像描述、视觉问答、目标检测与分割等。
多语言能力
支持多种语言的文本输入与输出,适用于国际化应用场景。
高效微调
提供预训练和微调版本,适合进一步定制化任务。

模型能力

图像描述生成
视觉问答
光学字符识别
目标检测
目标分割

使用案例

图像理解
图像描述生成
生成图像的简短或详细描述,支持多种语言。
高质量描述,适用于自动化内容生成。
视觉问答
回答关于图像内容的自然语言问题。
准确回答,适用于智能助手和教育应用。
文档处理
光学字符识别
从图像中提取文本内容。
高精度文本识别,适用于文档数字化。
计算机视觉
目标检测与分割
定位图像中的目标并生成边界框或分割区域。
精确的目标定位,适用于自动化监控和工业检测。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase