XLM-RoBERTa-XL开源多语言模型 - 支持100种语言，免费可用！

首页

Xlm Roberta Xl

由 facebook 开发

XLM-RoBERTa-XL是基于2.5TB经过筛选的CommonCrawl数据预训练的多语言模型，涵盖100种语言。

大型语言模型

Transformers

支持多种语言开源协议:MIT #超大规模多语言 #掩码语言建模 #100种语言支持

下载量 53.53k

发布时间 : 3/2/2022

模型简介

XLM-RoBERTa-XL是RoBERTa的超大型多语言版本，采用掩码语言建模(MLM)目标进行预训练，主要用于下游任务的微调。

模型特点

多语言支持

支持100种语言的预训练和微调

大规模预训练

基于2.5TB经过筛选的CommonCrawl数据进行预训练

掩码语言建模

采用MLM目标进行预训练，可预测被遮蔽的单词

模型能力

多语言文本理解

掩码语言预测

下游任务微调

使用案例

自然语言处理

序列分类

可用于文本分类任务

标记分类

适用于命名实体识别等任务

问答系统

可用于构建多语言问答系统

🚀 XLM-RoBERTa-XL (超大型模型)

XLM-RoBERTa-XL 模型在包含 100 种语言的 2.5TB 过滤后的 CommonCrawl 数据上进行了预训练。它由 Naman Goyal、Jingfei Du、Myle Ott、Giri Anantharaman、Alexis Conneau 等人在论文 Larger-Scale Transformers for Multilingual Masked Language Modeling 中提出，并首次在此仓库中发布。

⚠️ 重要提示 发布 XLM-RoBERTa-XL 的团队并未为此模型撰写模型卡片，本模型卡片由 Hugging Face 团队编写。

🚀 快速开始

XLM-RoBERTa-XL 是 RoBERTa 的超大型多语言版本，在包含 100 种语言的 2.5TB 过滤后的 CommonCrawl 数据上进行了预训练。

RoBERTa 是一种以自监督方式在大型语料库上预训练的 Transformer 模型。这意味着它仅在原始文本上进行预训练，没有人工对其进行任何标注（这就是它可以使用大量公开可用数据的原因），并通过自动过程从这些文本中生成输入和标签。

更准确地说，它是通过掩码语言模型（Masked Language Modeling，MLM）目标进行预训练的。对于一个句子，模型会随机掩盖输入中 15% 的单词，然后将整个被掩盖的句子输入模型，并预测被掩盖的单词。这与传统的循环神经网络（RNNs）不同，RNNs 通常是逐个处理单词，也与像 GPT 这样的自回归模型不同，GPT 会在内部掩盖未来的标记。这种方式使模型能够学习句子的双向表示。

通过这种方式，模型学习了 100 种语言的内部表示，这些表示可用于提取对下游任务有用的特征。例如，如果您有一个带标签的句子数据集，您可以使用 XLM-RoBERTa-XL 模型生成的特征作为输入，训练一个标准分类器。

✨ 主要特性

多语言支持：支持 100 种语言，能学习多种语言的内部表示。
双向表示学习：采用掩码语言模型目标进行预训练，可学习句子的双向表示。
可用于下游任务：学习到的特征可用于下游任务，如文本分类、标记分类或问答系统等。

💻 使用示例

基础用法

您可以直接使用该模型进行掩码语言建模：

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='facebook/xlm-roberta-xl')
>>> unmasker("Europe is a <mask> continent.")

[{'score': 0.08562745153903961,
  'token': 38043,
  'token_str': 'living',
  'sequence': 'Europe is a living continent.'},
 {'score': 0.0799778401851654,
  'token': 103494,
  'token_str': 'dead',
  'sequence': 'Europe is a dead continent.'},
 {'score': 0.046154674142599106,
  'token': 72856,
  'token_str': 'lost',
  'sequence': 'Europe is a lost continent.'},
 {'score': 0.04358183592557907,
  'token': 19336,
  'token_str': 'small',
  'sequence': 'Europe is a small continent.'},
 {'score': 0.040570393204689026,
  'token': 34923,
  'token_str': 'beautiful',
  'sequence': 'Europe is a beautiful continent.'}]

高级用法

以下是如何在 PyTorch 中使用该模型获取给定文本的特征：

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained('facebook/xlm-roberta-xl')
model = AutoModelForMaskedLM.from_pretrained("facebook/xlm-roberta-xl")

# prepare input
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')

# forward pass
output = model(**encoded_input)

📚 详细文档

预期用途和限制

您可以使用原始模型进行掩码语言建模，但它主要用于在下游任务上进行微调。您可以查看模型中心，寻找针对您感兴趣的任务进行微调后的版本。

请注意，此模型主要旨在针对使用整个句子（可能被掩码）来做出决策的任务进行微调，例如序列分类、标记分类或问答系统。对于文本生成等任务，您应该考虑使用像 GPT2 这样的模型。

BibTeX 引用和引用信息

@article{DBLP:journals/corr/abs-2105-00572,
  author    = {Naman Goyal and
               Jingfei Du and
               Myle Ott and
               Giri Anantharaman and
               Alexis Conneau},
  title     = {Larger-Scale Transformers for Multilingual Masked Language Modeling},
  journal   = {CoRR},
  volume    = {abs/2105.00572},
  year      = {2021},
  url       = {https://arxiv.org/abs/2105.00572},
  eprinttype = {arXiv},
  eprint    = {2105.00572},
  timestamp = {Wed, 12 May 2021 15:54:31 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2105-00572.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}