🚀 XLM-RoBERTa-XL (超大型模型)
XLM-RoBERTa-XL 模型在包含 100 种语言的 2.5TB 过滤后的 CommonCrawl 数据上进行了预训练。它由 Naman Goyal、Jingfei Du、Myle Ott、Giri Anantharaman、Alexis Conneau 等人在论文 Larger-Scale Transformers for Multilingual Masked Language Modeling 中提出,并首次在 此仓库 中发布。
⚠️ 重要提示
发布 XLM-RoBERTa-XL 的团队并未为此模型撰写模型卡片,本模型卡片由 Hugging Face 团队编写。
🚀 快速开始
XLM-RoBERTa-XL 是 RoBERTa 的超大型多语言版本,在包含 100 种语言的 2.5TB 过滤后的 CommonCrawl 数据上进行了预训练。
RoBERTa 是一种以自监督方式在大型语料库上预训练的 Transformer 模型。这意味着它仅在原始文本上进行预训练,没有人工对其进行任何标注(这就是它可以使用大量公开可用数据的原因),并通过自动过程从这些文本中生成输入和标签。
更准确地说,它是通过掩码语言模型(Masked Language Modeling,MLM)目标进行预训练的。对于一个句子,模型会随机掩盖输入中 15% 的单词,然后将整个被掩盖的句子输入模型,并预测被掩盖的单词。这与传统的循环神经网络(RNNs)不同,RNNs 通常是逐个处理单词,也与像 GPT 这样的自回归模型不同,GPT 会在内部掩盖未来的标记。这种方式使模型能够学习句子的双向表示。
通过这种方式,模型学习了 100 种语言的内部表示,这些表示可用于提取对下游任务有用的特征。例如,如果您有一个带标签的句子数据集,您可以使用 XLM-RoBERTa-XL 模型生成的特征作为输入,训练一个标准分类器。
✨ 主要特性
- 多语言支持:支持 100 种语言,能学习多种语言的内部表示。
- 双向表示学习:采用掩码语言模型目标进行预训练,可学习句子的双向表示。
- 可用于下游任务:学习到的特征可用于下游任务,如文本分类、标记分类或问答系统等。
💻 使用示例
基础用法
您可以直接使用该模型进行掩码语言建模:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='facebook/xlm-roberta-xl')
>>> unmasker("Europe is a <mask> continent.")
[{'score': 0.08562745153903961,
'token': 38043,
'token_str': 'living',
'sequence': 'Europe is a living continent.'},
{'score': 0.0799778401851654,
'token': 103494,
'token_str': 'dead',
'sequence': 'Europe is a dead continent.'},
{'score': 0.046154674142599106,
'token': 72856,
'token_str': 'lost',
'sequence': 'Europe is a lost continent.'},
{'score': 0.04358183592557907,
'token': 19336,
'token_str': 'small',
'sequence': 'Europe is a small continent.'},
{'score': 0.040570393204689026,
'token': 34923,
'token_str': 'beautiful',
'sequence': 'Europe is a beautiful continent.'}]
高级用法
以下是如何在 PyTorch 中使用该模型获取给定文本的特征:
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained('facebook/xlm-roberta-xl')
model = AutoModelForMaskedLM.from_pretrained("facebook/xlm-roberta-xl")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
📚 详细文档
预期用途和限制
您可以使用原始模型进行掩码语言建模,但它主要用于在下游任务上进行微调。您可以查看 模型中心,寻找针对您感兴趣的任务进行微调后的版本。
请注意,此模型主要旨在针对使用整个句子(可能被掩码)来做出决策的任务进行微调,例如序列分类、标记分类或问答系统。对于文本生成等任务,您应该考虑使用像 GPT2 这样的模型。
BibTeX 引用和引用信息
@article{DBLP:journals/corr/abs-2105-00572,
author = {Naman Goyal and
Jingfei Du and
Myle Ott and
Giri Anantharaman and
Alexis Conneau},
title = {Larger-Scale Transformers for Multilingual Masked Language Modeling},
journal = {CoRR},
volume = {abs/2105.00572},
year = {2021},
url = {https://arxiv.org/abs/2105.00572},
eprinttype = {arXiv},
eprint = {2105.00572},
timestamp = {Wed, 12 May 2021 15:54:31 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2105-00572.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
📄 许可证
本项目采用 MIT 许可证。
属性 |
详情 |
支持语言 |
多语言,包括 af、am、ar 等 100 种语言 |
许可证 |
MIT |