Clip Flant5 Xxl
基于google/flan-t5-xxl微调的视觉语言生成模型,专为图像文本检索任务设计
下载量 86.23k
发布时间 : 12/13/2023
模型简介
本模型是针对图像文本检索任务对flan-t5-xxl进行微调得到的版本,在VQAScore论文中有所展示
模型特点
视觉语言生成能力
结合视觉和语言理解能力,实现图像与文本的跨模态检索
基于Flan-T5微调
在强大的Flan-T5-XXL基础上进行针对性微调,保留原有语言理解能力的同时增强视觉关联能力
VQAScore相关
模型设计与VQAScore评估方法相关,可能优化了视觉问答相关指标
模型能力
图像文本检索
跨模态理解
视觉语言生成
使用案例
信息检索
基于图像的文本检索
根据图像内容检索相关文本描述
跨模态搜索
实现图像与文本之间的双向检索
视觉问答
VQA系统
可能用于构建视觉问答系统(基于VQAScore关联推测)
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98