P

Paligemma 3b Ft Docvqa 896

由 google 开发
PaliGemma是Google开发的轻量级视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建,支持多语言图像文本理解与生成。
下载量 519
发布时间 : 5/12/2024

模型简介

多功能视觉语言模型,接收图像和文本输入并生成文本输出,支持图像描述、视觉问答、文本阅读、目标检测与分割等任务。

模型特点

轻量高效
仅30亿参数规模,在保持高性能的同时降低计算资源需求
多任务支持
通过任务前缀配置可支持问答、描述、检测、分割等多种视觉语言任务
多语言能力
预训练数据涵盖35种语言,支持跨语言图像理解与生成
负责任AI
训练数据经过严格的内容安全过滤和伦理审查

模型能力

图像描述生成
视觉问答
文档理解
目标检测
图像分割
多语言文本生成

使用案例

文档处理
DocVQA文档问答
从扫描文档或图像中提取信息并回答问题
在DocVQA数据集上专门微调
内容审核
图像安全检测
识别图像中的敏感或不适当内容
通过Perspective API实现毒性检测
多语言应用
跨语言图像描述
用不同语言生成图像描述
示例显示西班牙语描述能力
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase