data2vec-vision-large開源圖像分類模型 - 免費部署助力圖像分類任務

首頁

Data2vec Vision Large

由facebook開發

Data2Vec-Vision是基於BEiT架構的自監督學習模型，在ImageNet-1k數據集上預訓練，適用於圖像分類任務。

圖像分類

Transformers

開源協議:Apache-2.0 #自監督學習 #多模態通用框架 #圖像上下文預測

下載量 225

發布時間 : 4/14/2022

模型概述

該模型採用data2vec框架，通過自蒸餾方式學習圖像數據的潛在表示，支持計算機視覺任務。

模型特點

通用自監督學習框架

採用統一的data2vec框架處理多模態任務，包括語音、視覺和語言

上下文潛在表示預測

不同於預測局部特徵，模型預測包含完整輸入信息的上下文表示

高性能表現

在多個基準測試中達到新的最優性能或與主流方法競爭的表現

模型能力

圖像分類

視覺特徵提取

使用案例

計算機視覺

圖像分類

對圖像進行1000個類別的分類

在ImageNet-1k基準測試中表現優異

🚀 Data2Vec-Vision（大型模型，僅預訓練）

Data2Vec-Vision 是一個基於 BEiT 架構的模型，它在 ImageNet-1k 數據集（包含 120 萬張圖像、1000 個類別）上以自監督的方式進行預訓練，圖像分辨率為 224x224。該模型由 Alexei Baevski、Wei-Ning Hsu 等人在論文 data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language 中提出，並首次在此倉庫發佈。

需注意，發佈該模型的 Facebook 團隊並未撰寫模型卡片，此模型卡片由 Hugging Face 團隊編寫。

🚀 快速開始

你可以直接使用該預訓練模型進行圖像分類任務。若想尋找針對特定任務微調後的版本，可訪問模型中心。

✨ 主要特性

通用自監督學習框架：data2vec 提供了一個通用的自監督學習框架，可應用於語音、自然語言處理和計算機視覺等多個領域。
自蒸餾預測：核心思想是在自蒸餾設置中，基於輸入的掩碼視圖預測完整輸入數據的潛在表示，使用標準的 Transformer 架構。
上下文潛在表示：與預測局部的特定模態目標（如單詞、視覺標記或人類語音單元）不同，data2vec 預測包含整個輸入信息的上下文潛在表示。

📚 詳細文檔

預訓練方法

模型圖片

更多詳細信息，請參考官方論文。

摘要

自監督學習的總體思想在不同模態之間是相同的，但實際的算法和目標卻有很大差異，因為它們是針對單一模態開發的。為了更接近通用的自監督學習，我們提出了 data2vec 框架，該框架對語音、自然語言處理或計算機視覺使用相同的學習方法。核心思想是在自蒸餾設置中，使用標準的 Transformer 架構，基於輸入的掩碼視圖預測完整輸入數據的潛在表示。與預測局部的特定模態目標（如單詞、視覺標記或人類語音單元）不同，data2vec 預測包含整個輸入信息的上下文潛在表示。在語音識別、圖像分類和自然語言理解等主要基準測試上的實驗表明，該方法達到了新的技術水平，或與主流方法具有競爭力。

預期用途和限制

該模型可用於圖像分類任務。你可以在模型中心查找針對特定任務微調後的版本。

訓練數據

BEiT 模型在 ImageNet-1k 數據集上進行預訓練，該數據集包含 120 萬張圖像和 1000 個類別。

訓練過程

預處理

訓練/驗證期間圖像預處理的具體細節可參考此處。

圖像會被調整大小/縮放至相同的分辨率（224x224），並在 RGB 通道上進行歸一化處理，均值為 (0.5, 0.5, 0.5)，標準差為 (0.5, 0.5, 0.5)。

預訓練

所有與預訓練相關的超參數，請參考原論文和原代碼庫。

評估結果

關於多個圖像分類基準測試的評估結果，請參考原論文中的表 1。需要注意的是，在微調時，較高的分辨率可以獲得更好的結果。當然，增大模型規模也會提高性能。

📄 許可證

本模型採用 Apache-2.0 許可證。

BibTeX 引用信息

@misc{https://doi.org/10.48550/arxiv.2202.03555,
  doi = {10.48550/ARXIV.2202.03555},
  url = {https://arxiv.org/abs/2202.03555},
  author = {Baevski, Alexei and Hsu, Wei-Ning and Xu, Qiantong and Babu, Arun and Gu, Jiatao and Auli, Michael},
  keywords = {Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language},
  publisher = {arXiv},
  year = {2022},
  copyright = {arXiv.org perpetual, non-exclusive license}
}