🚀 Data2Vec-Vision(大型模型,僅預訓練)
Data2Vec-Vision 是一個基於 BEiT 架構的模型,它在 ImageNet-1k 數據集(包含 120 萬張圖像、1000 個類別)上以自監督的方式進行預訓練,圖像分辨率為 224x224。該模型由 Alexei Baevski、Wei-Ning Hsu 等人在論文 data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language 中提出,並首次在 此倉庫 發佈。
需注意,發佈該模型的 Facebook 團隊並未撰寫模型卡片,此模型卡片由 Hugging Face 團隊編寫。
🚀 快速開始
你可以直接使用該預訓練模型進行圖像分類任務。若想尋找針對特定任務微調後的版本,可訪問 模型中心。
✨ 主要特性
- 通用自監督學習框架:data2vec 提供了一個通用的自監督學習框架,可應用於語音、自然語言處理和計算機視覺等多個領域。
- 自蒸餾預測:核心思想是在自蒸餾設置中,基於輸入的掩碼視圖預測完整輸入數據的潛在表示,使用標準的 Transformer 架構。
- 上下文潛在表示:與預測局部的特定模態目標(如單詞、視覺標記或人類語音單元)不同,data2vec 預測包含整個輸入信息的上下文潛在表示。
📚 詳細文檔
預訓練方法

更多詳細信息,請參考 官方論文。
摘要
自監督學習的總體思想在不同模態之間是相同的,但實際的算法和目標卻有很大差異,因為它們是針對單一模態開發的。為了更接近通用的自監督學習,我們提出了 data2vec 框架,該框架對語音、自然語言處理或計算機視覺使用相同的學習方法。核心思想是在自蒸餾設置中,使用標準的 Transformer 架構,基於輸入的掩碼視圖預測完整輸入數據的潛在表示。與預測局部的特定模態目標(如單詞、視覺標記或人類語音單元)不同,data2vec 預測包含整個輸入信息的上下文潛在表示。在語音識別、圖像分類和自然語言理解等主要基準測試上的實驗表明,該方法達到了新的技術水平,或與主流方法具有競爭力。
預期用途和限制
該模型可用於圖像分類任務。你可以在 模型中心 查找針對特定任務微調後的版本。
訓練數據
BEiT 模型在 ImageNet-1k 數據集上進行預訓練,該數據集包含 120 萬張圖像和 1000 個類別。
訓練過程
預處理
訓練/驗證期間圖像預處理的具體細節可參考 此處。
圖像會被調整大小/縮放至相同的分辨率(224x224),並在 RGB 通道上進行歸一化處理,均值為 (0.5, 0.5, 0.5),標準差為 (0.5, 0.5, 0.5)。
預訓練
所有與預訓練相關的超參數,請參考 原論文 和 原代碼庫。
評估結果
關於多個圖像分類基準測試的評估結果,請參考原論文中的表 1。需要注意的是,在微調時,較高的分辨率可以獲得更好的結果。當然,增大模型規模也會提高性能。
📄 許可證
本模型採用 Apache-2.0 許可證。
BibTeX 引用信息
@misc{https://doi.org/10.48550/arxiv.2202.03555,
doi = {10.48550/ARXIV.2202.03555},
url = {https://arxiv.org/abs/2202.03555},
author = {Baevski, Alexei and Hsu, Wei-Ning and Xu, Qiantong and Babu, Arun and Gu, Jiatao and Auli, Michael},
keywords = {Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}
屬性 |
詳情 |
模型類型 |
用於圖像分類的預訓練 BEiT 模型 |
訓練數據 |
ImageNet-1k 數據集,包含 120 萬張圖像和 1000 個類別 |