MetaCLIP-L14-400M Open-Source Vision-Language Model - Building a Shared Embedding Space for Images and Text

Home

Metaclip L14 400m

Developed by facebook

MetaCLIP is a vision-language model trained on CommonCrawl data for constructing shared image-text embedding spaces.

Text-to-Image

Transformers

#Zero-shot image classification #Cross-modal retrieval #Large-scale pre-training

Downloads 325

Release Time : 10/9/2023

Model Overview

This model builds a shared embedding space for images and texts by analyzing CLIP training data filtering methods, supporting various cross-modal tasks.

Model Features

Large-scale data training

Trained on 400 million data points from CommonCrawl

Cross-modal understanding

Constructs shared embedding spaces for images and texts

Zero-shot capability

Supports zero-shot classification without task-specific training

Model Capabilities

Image classification

Text-to-image retrieval

Image-to-text retrieval

Cross-modal understanding

Use Cases

Content retrieval

Text-based image search

Retrieve relevant images using natural language descriptions

Content classification

Zero-shot image classification

Classify images of new categories without training

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Metaclip L14 400m

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 MetaCLIP model, large-sized version, patch resolution 14

🚀 Quick Start

✨ Features

📚 Documentation

Intended uses & limitations

How to use

BibTeX entry and citation info

📄 License