nllb-clip-large-oc: An Open-Source Multilingual Vision-Language Model - Supports 201 Languages and Enables Text-Image Interaction

Nllb Clip Large Oc

Developed by visheratin

NLLB-CLIP is a multilingual vision-language model combining the NLLB model's text encoder with CLIP's image encoder, supporting 201 languages.

Text-to-Image #Multilingual zero-shot classification #Low-resource language optimization #Cross-modal image understanding

Downloads 28

Release Time : 10/7/2023

Model Overview

This model integrates NLLB's text encoding capabilities with CLIP's image encoding capabilities, extending support to 201 languages from Flores-200, with particularly outstanding performance on low-resource languages.

Model Features

Multilingual support

Supports 201 languages from Flores-200, with particularly outstanding performance on low-resource languages.

Cross-modal capability

Combines text and image encoding capabilities to achieve zero-shot image classification.

High performance

Sets new technical benchmarks on the Crossmodal-3600 dataset.

Model Capabilities

Zero-shot image classification

Multilingual text understanding

Cross-modal retrieval

Use Cases

Multilingual image classification

Multilingual image labeling

Classify and label images using supported languages.

Outstanding performance on low-resource languages.

Cross-modal retrieval

Image-text matching

Match images with text descriptions in a multilingual environment.

Property	Details
Tags	clip
Library Name	open_clip
Pipeline Tag	zero-shot-image-classification
License	cc-by-nc-4.0
Datasets	visheratin/laion-coco-nllb

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Nllb Clip Large Oc

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 NLLB-CLIP

🚀 Quick Start

✨ Features

📦 Installation

💻 Usage Examples

📚 Documentation

Model Summary

🔧 Technical Details

📄 License

Acknowledgements

Information Table