🚀 Data2Vec-Text基础模型
Data2Vec-Text基础模型是使用 data2vec 目标在英语语料上进行预训练的模型。它在 这篇论文 中被提出,并首次在 这个仓库 中发布。该模型区分大小写,即 "english" 和 "English" 会被视为不同的内容。
声明:发布Data2Vec-Text的团队并未为该模型撰写模型卡片,此模型卡片由Hugging Face团队撰写。
🚀 快速开始
本模型适用于在下游任务上进行微调。你可以查看 模型中心,寻找针对你感兴趣的任务进行微调后的版本。
需要注意的是,该模型主要用于在使用整个句子(可能经过掩码处理)来做决策的任务上进行微调,例如序列分类、标记分类或问答任务。对于文本生成等任务,你可以考虑像GPT2这样的模型。
✨ 主要特性
- 基于 data2vec 目标进行预训练,可用于语音、NLP或计算机视觉等不同模态,使用相同的学习方法。
- 核心思想是在自蒸馏设置中,基于输入的掩码视图,使用标准的Transformer架构预测完整输入数据的潜在表示。
- 预测包含整个输入信息的上下文潜在表示,而非特定模态的局部目标。
📚 详细文档
预训练方法

更多信息,请查看 官方论文。
摘要
自监督学习的总体思想在不同模态之间是相同的,但实际的算法和目标却大不相同,因为它们是针对单一模态开发的。为了更接近通用的自监督学习,我们提出了data2vec框架,该框架对语音、NLP或计算机视觉使用相同的学习方法。其核心思想是在自蒸馏设置中,使用标准的Transformer架构,基于输入的掩码视图预测完整输入数据的潜在表示。与预测特定模态的局部目标(如单词、视觉标记或人类语音单元)不同,data2vec预测包含整个输入信息的上下文潜在表示。在语音识别、图像分类和自然语言理解等主要基准测试上的实验表明,该方法达到了新的技术水平,或与主流方法具有竞争力。
预期用途与限制
该模型旨在在下游任务上进行微调。你可以在 模型中心 中查找针对你感兴趣的任务进行微调后的版本。
请注意,此模型主要用于在使用整个句子(可能经过掩码处理)来做决策的任务上进行微调,例如序列分类、标记分类或问答任务。对于文本生成等任务,你应该考虑像GPT2这样的模型。
训练数据
RoBERTa模型在五个数据集的合并数据上进行了预训练:
- BookCorpus,一个包含11,038本未出版书籍的数据集。
- 英文维基百科(不包括列表、表格和标题)。
- CC-News,一个包含6300万篇英文新闻文章的数据集,这些文章是在2016年9月至2019年2月期间爬取的。
- OpenWebText,一个开源的WebText数据集的复刻版本,用于训练GPT - 2。
- Stories,一个包含CommonCrawl数据子集的数据集,经过筛选以匹配Winograd模式的故事风格。
这些数据集总共包含160GB的文本数据。
BibTeX引用和引用信息
@misc{https://doi.org/10.48550/arxiv.2202.03555,
doi = {10.48550/ARXIV.2202.03555},
url = {https://arxiv.org/abs/2202.03555},
author = {Baevski, Alexei and Hsu, Wei-Ning and Xu, Qiantong and Babu, Arun and Gu, Jiatao and Auli, Michael},
keywords = {Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}
📄 许可证
本模型采用MIT许可证。