DFN-public開源模型 - 免費部署助力零樣本圖像分類任務

首頁

DFN Public

由apple開發

這是一個基於CLIP的ViT-B/32模型，使用數據過濾網絡(DFN)從CC12M、CC3M和Shutterstock 15M數據集訓練而來，適用於零樣本圖像分類任務。

文本生成圖像

Transformers

#零樣本圖像分類 #大規模數據過濾 #多源預訓練

下載量 3,822

發布時間 : 7/8/2024

模型概述

該模型是基於對比語言-圖像預訓練(CLIP)的視覺Transformer模型，通過數據過濾網絡自動篩選訓練數據，能夠實現零樣本圖像分類和圖文匹配任務。

模型特點

數據過濾網絡訓練

使用小型數據過濾網絡(DFN)自動篩選大規模未整理數據集，提高訓練數據質量

多數據集聯合訓練

結合Conceptual Captions 12M/3M和Shutterstock 15M三個數據集進行訓練

零樣本分類能力

無需特定任務微調即可直接應用於新的圖像分類任務

模型能力

零樣本圖像分類

圖文匹配

跨模態檢索

使用案例

內容管理

自動圖像標註

為未標註圖像自動生成描述性標籤

電子商務

產品圖像分類

根據商品描述自動分類產品圖像

屬性	詳情
模型類型	對比圖像 - 文本、零樣本圖像分類
數據集	CC12M + CC3M + SS15M
論文	Data Filtering Networks
所見示例數量	1.28B

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

DFN Public

模型概述

模型特點

模型能力

使用案例

🚀 CLIP ViT-B/32 DFN模型

🚀 快速開始

✨ 主要特性

📚 詳細文檔

模型詳情

引用信息

📄 許可證