C

Clip Flant5 Xxl

由 zhiqiulin 开发
基于google/flan-t5-xxl微调的视觉语言生成模型,专为图像文本检索任务设计
下载量 86.23k
发布时间 : 12/13/2023

模型简介

本模型是针对图像文本检索任务对flan-t5-xxl进行微调得到的版本,在VQAScore论文中有所展示

模型特点

视觉语言生成能力
结合视觉和语言理解能力,实现图像与文本的跨模态检索
基于Flan-T5微调
在强大的Flan-T5-XXL基础上进行针对性微调,保留原有语言理解能力的同时增强视觉关联能力
VQAScore相关
模型设计与VQAScore评估方法相关,可能优化了视觉问答相关指标

模型能力

图像文本检索
跨模态理解
视觉语言生成

使用案例

信息检索
基于图像的文本检索
根据图像内容检索相关文本描述
跨模态搜索
实现图像与文本之间的双向检索
视觉问答
VQA系统
可能用于构建视觉问答系统(基于VQAScore关联推测)
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase