🚀 Data2Vec-Text基礎模型
Data2Vec-Text基礎模型是使用 data2vec 目標在英語語料上進行預訓練的模型。它在 這篇論文 中被提出,並首次在 這個倉庫 中發佈。該模型區分大小寫,即 "english" 和 "English" 會被視為不同的內容。
聲明:發佈Data2Vec-Text的團隊並未為該模型撰寫模型卡片,此模型卡片由Hugging Face團隊撰寫。
🚀 快速開始
本模型適用於在下游任務上進行微調。你可以查看 模型中心,尋找針對你感興趣的任務進行微調後的版本。
需要注意的是,該模型主要用於在使用整個句子(可能經過掩碼處理)來做決策的任務上進行微調,例如序列分類、標記分類或問答任務。對於文本生成等任務,你可以考慮像GPT2這樣的模型。
✨ 主要特性
- 基於 data2vec 目標進行預訓練,可用於語音、NLP或計算機視覺等不同模態,使用相同的學習方法。
- 核心思想是在自蒸餾設置中,基於輸入的掩碼視圖,使用標準的Transformer架構預測完整輸入數據的潛在表示。
- 預測包含整個輸入信息的上下文潛在表示,而非特定模態的局部目標。
📚 詳細文檔
預訓練方法

更多信息,請查看 官方論文。
摘要
自監督學習的總體思想在不同模態之間是相同的,但實際的算法和目標卻大不相同,因為它們是針對單一模態開發的。為了更接近通用的自監督學習,我們提出了data2vec框架,該框架對語音、NLP或計算機視覺使用相同的學習方法。其核心思想是在自蒸餾設置中,使用標準的Transformer架構,基於輸入的掩碼視圖預測完整輸入數據的潛在表示。與預測特定模態的局部目標(如單詞、視覺標記或人類語音單元)不同,data2vec預測包含整個輸入信息的上下文潛在表示。在語音識別、圖像分類和自然語言理解等主要基準測試上的實驗表明,該方法達到了新的技術水平,或與主流方法具有競爭力。
預期用途與限制
該模型旨在在下游任務上進行微調。你可以在 模型中心 中查找針對你感興趣的任務進行微調後的版本。
請注意,此模型主要用於在使用整個句子(可能經過掩碼處理)來做決策的任務上進行微調,例如序列分類、標記分類或問答任務。對於文本生成等任務,你應該考慮像GPT2這樣的模型。
訓練數據
RoBERTa模型在五個數據集的合併數據上進行了預訓練:
- BookCorpus,一個包含11,038本未出版書籍的數據集。
- 英文維基百科(不包括列表、表格和標題)。
- CC-News,一個包含6300萬篇英文新聞文章的數據集,這些文章是在2016年9月至2019年2月期間爬取的。
- OpenWebText,一個開源的WebText數據集的復刻版本,用於訓練GPT - 2。
- Stories,一個包含CommonCrawl數據子集的數據集,經過篩選以匹配Winograd模式的故事風格。
這些數據集總共包含160GB的文本數據。
BibTeX引用和引用信息
@misc{https://doi.org/10.48550/arxiv.2202.03555,
doi = {10.48550/ARXIV.2202.03555},
url = {https://arxiv.org/abs/2202.03555},
author = {Baevski, Alexei and Hsu, Wei-Ning and Xu, Qiantong and Babu, Arun and Gu, Jiatao and Auli, Michael},
keywords = {Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}
📄 許可證
本模型採用MIT許可證。