metaclip-l14-400m开源视觉-语言模型 - 构建图像与文本共享嵌入空间

Home

Metaclip L14 400m

Developed by facebook

MetaCLIP是基于CommonCrawl数据训练的视觉-语言模型，用于构建图像-文本共享嵌入空间。

文本生成图像

Transformers

#零样本图像分类 #跨模态检索 #大规模预训练

Downloads 325

Release Time : 10/9/2023

Model Overview

该模型通过分析CLIP训练数据筛选方法，构建了图像与文本的共享嵌入空间，支持多种跨模态任务。

Model Features

大规模数据训练

基于CommonCrawl的4亿数据点训练

跨模态理解

构建图像与文本的共享嵌入空间

零样本能力

支持无需特定任务训练的零样本分类

Model Capabilities

图像分类

文本到图像检索

图像到文本检索

跨模态理解

Use Cases

内容检索

基于文本的图像搜索

使用自然语言描述检索相关图像

内容分类

零样本图像分类

无需训练即可对新类别图像进行分类

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Metaclip L14 400m

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 MetaCLIP模型，大尺寸版本，补丁分辨率14

🚀 快速开始

✨ 主要特性

📚 详细文档

模型描述

预期用途和限制

BibTeX引用和引用信息

📄 许可证