开源MetaCLIP-b16-400m视觉语言模型 - 构建图像文本共享嵌入空间

Home

Metaclip B16 400m

Developed by facebook

MetaCLIP是基于CommonCrawl数据训练的视觉-语言模型，用于构建图像-文本共享嵌入空间

文本生成图像

Transformers

#零样本图像分类 #跨模态检索 #CLIP数据优化

Downloads 51

Release Time : 10/9/2023

Model Overview

该模型将MetaCLIP框架应用于CommonCrawl的4亿数据点，用于揭示CLIP训练数据筛选方法，支持图像与文本的跨模态理解

Model Features

公开数据训练

使用CommonCrawl公开数据集训练，数据透明度高

跨模态理解

可同时处理视觉和文本信息，建立共享嵌入空间

零样本学习

无需特定任务训练即可执行新任务

Model Capabilities

零样本图像分类

基于文本的图像检索

基于图像的文本检索

跨模态特征提取

Use Cases

内容检索

图像搜索引擎

使用自然语言描述检索相关图像

智能标注

自动图像标注

为未标注图像生成描述性标签

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Metaclip B16 400m

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 MetaCLIP模型（基础版本，补丁分辨率16）

🚀 快速开始

✨ 主要特性

📚 详细文档

模型描述

预期用途和限制

使用方法

BibTeX引用和引用信息

📄 许可证