metaclip-h14-fullcc2.5b開源視覺 - 語言模型，改善數據篩選提升圖像文本關聯性能

首頁

Metaclip H14 Fullcc2.5b

由facebook開發

MetaCLIP是基於CommonCrawl數據的視覺-語言模型，通過改進數據篩選方法提升CLIP模型性能

文本生成圖像

Transformers

#零樣本圖像分類 #多模態嵌入空間 #25億數據訓練

下載量 26.29k

發布時間 : 10/9/2023

模型概述

該模型基於MetaCLIP技術構建圖像-文本共享嵌入空間，支持零樣本圖像分類、跨模態檢索等任務，旨在解決CLIP訓練數據篩選不透明的問題

模型特點

改進的數據篩選方法

通過MetaCLIP技術優化CLIP訓練數據選擇流程，解決原始CLIP數據預處理不透明的問題

高分辨率處理能力

支持14×14圖像塊分辨率，能捕捉更精細的視覺特徵

大規模預訓練

基於CommonCrawl的25億數據點進行訓練，具有強大的泛化能力

模型能力

零樣本圖像分類

基於文本的圖像檢索

基於圖像的文本檢索

跨模態特徵提取

使用案例

內容檢索

多模態搜索引擎

使用文本查詢檢索相關圖像，或通過圖像查找相關文本內容

智能標註

自動圖像標註

為未標註圖像生成描述性標籤

屬性	詳情
模型類型	MetaCLIP模型，超大型版本，補丁分辨率14
訓練數據	CommonCrawl的25億個數據點

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Metaclip H14 Fullcc2.5b

模型概述

模型特點

模型能力

使用案例

🚀 MetaCLIP模型，超大型版本，補丁分辨率14

🚀 快速開始

✨ 主要特性

📚 詳細文檔

模型描述

預期用途和限制

使用方法

BibTeX引用和引用信息

📄 許可證