xlm-roberta-large開源多語言模型 - 支持100種語言處理，免費可用！

首頁

Xlm Roberta Large

由FacebookAI開發

XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型，採用掩碼語言建模目標進行訓練。

大型語言模型支持多種語言開源協議:MIT #多語言預訓練 #百種語言支持 #大規模語料

下載量 5.3M

發布時間 : 3/2/2022

模型概述

XLM-RoBERTa是RoBERTa的多語言版本，支持100種語言，主要用於文本特徵提取和下游任務的微調。

模型特點

多語言支持

支持100種語言，適用於多語言文本處理任務。

大規模預訓練

基於2.5TB過濾CommonCrawl數據進行預訓練，具有強大的語言理解能力。

掩碼語言建模

採用掩碼語言建模目標進行訓練，能夠學習句子的雙向表示。

模型能力

文本特徵提取

掩碼語言建模

多語言文本處理

使用案例

自然語言處理

序列分類

可用於情感分析、文本分類等任務。

標記分類

適用於命名實體識別、詞性標註等任務。

問答系統

可用於構建多語言問答系統。

🚀 XLM-RoBERTa (大尺寸模型)

XLM-RoBERTa 是在包含100種語言的2.5TB過濾後的CommonCrawl數據上預訓練的模型。它能學習100種語言的內部表示，可用於提取對下游任務有用的特徵。

🚀 快速開始

XLM-RoBERTa 模型在包含100種語言的2.5TB過濾後的CommonCrawl數據上進行了預訓練。它由Conneau等人在論文 Unsupervised Cross-lingual Representation Learning at Scale 中提出，並首次在此倉庫中發佈。

聲明：發佈 XLM-RoBERTa 的團隊並未為此模型編寫模型卡片，此模型卡片由 Hugging Face 團隊編寫。

✨ 主要特性

多語言支持：XLM-RoBERTa 是 RoBERTa 的多語言版本，在包含100種語言的數據上預訓練。
自監督學習：以自監督的方式在大型語料庫上進行預訓練，使用掩碼語言建模（MLM）目標，能夠學習句子的雙向表示。
特徵提取：學習100種語言的內部表示，可用於提取對下游任務有用的特徵。

📚 詳細文檔

模型描述

XLM-RoBERTa 是 RoBERTa 的多語言版本，它在包含100種語言的2.5TB過濾後的CommonCrawl數據上進行了預訓練。

RoBERTa 是一個以自監督方式在大型語料庫上預訓練的Transformer模型。這意味著它僅在原始文本上進行預訓練，沒有人工以任何方式對其進行標註（這就是為什麼它可以使用大量公開可用的數據），並且通過自動過程從這些文本中生成輸入和標籤。

更準確地說，它以掩碼語言建模（MLM）為目標進行預訓練。對於一個句子，模型會隨機屏蔽輸入中15%的單詞，然後將整個屏蔽後的句子輸入模型，並預測被屏蔽的單詞。這與傳統的循環神經網絡（RNN）不同，RNN通常是逐個處理單詞，也與像GPT這樣的自迴歸模型不同，GPT會在內部屏蔽未來的標記。這種方式使模型能夠學習句子的雙向表示。

通過這種方式，模型學習到100種語言的內部表示，這些表示可用於提取對下游任務有用的特徵：例如，如果您有一個帶標籤的句子數據集，您可以使用 XLM-RoBERTa 模型生成的特徵作為輸入來訓練一個標準分類器。

預期用途和限制

您可以使用原始模型進行掩碼語言建模，但它主要用於在下游任務上進行微調。請參閱模型中心以查找針對您感興趣的任務進行微調的版本。

請注意，此模型主要旨在針對使用整個句子（可能是掩碼後的句子）來做出決策的任務進行微調，例如序列分類、標記分類或問答。對於文本生成等任務，您應該考慮使用像 GPT2 這樣的模型。

💻 使用示例

基礎用法

您可以直接使用此模型和一個用於掩碼語言建模的管道：

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='xlm-roberta-large')
>>> unmasker("Hello I'm a <mask> model.")

[{'score': 0.10563907772302628,
  'sequence': "Hello I'm a fashion model.",
  'token': 54543,
  'token_str': 'fashion'},
 {'score': 0.08015287667512894,
  'sequence': "Hello I'm a new model.",
  'token': 3525,
  'token_str': 'new'},
 {'score': 0.033413201570510864,
  'sequence': "Hello I'm a model model.",
  'token': 3299,
  'token_str': 'model'},
 {'score': 0.030217764899134636,
  'sequence': "Hello I'm a French model.",
  'token': 92265,
  'token_str': 'French'},
 {'score': 0.026436051353812218,
  'sequence': "Hello I'm a sexy model.",
  'token': 17473,
  'token_str': 'sexy'}]

高級用法

以下是如何在 PyTorch 中使用此模型獲取給定文本的特徵：

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained('xlm-roberta-large')
model = AutoModelForMaskedLM.from_pretrained("xlm-roberta-large")

# prepare input
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')

# forward pass
output = model(**encoded_input)

BibTeX 引用和引用信息

@article{DBLP:journals/corr/abs-1911-02116,
  author    = {Alexis Conneau and
               Kartikay Khandelwal and
               Naman Goyal and
               Vishrav Chaudhary and
               Guillaume Wenzek and
               Francisco Guzm{\'{a}}n and
               Edouard Grave and
               Myle Ott and
               Luke Zettlemoyer and
               Veselin Stoyanov},
  title     = {Unsupervised Cross-lingual Representation Learning at Scale},
  journal   = {CoRR},
  volume    = {abs/1911.02116},
  year      = {2019},
  url       = {http://arxiv.org/abs/1911.02116},
  eprinttype = {arXiv},
  eprint    = {1911.02116},
  timestamp = {Mon, 11 Nov 2019 18:38:09 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1911-02116.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

模型標籤和語言支持

屬性	詳情
標籤	exbert
支持語言	多語言，包括 af、am、ar、as、az、be、bg、bn、br、bs、ca、cs、cy、da、de、el、en、eo、es、et、eu、fa、fi、fr、fy、ga、gd、gl、gu、ha、he、hi、hr、hu、hy、id、is、it、ja、jv、ka、kk、km、kn、ko、ku、ky、la、lo、lt、lv、mg、mk、ml、mn、mr、ms、my、ne、nl、no、om、or、pa、pl、ps、pt、ro、ru、sa、sd、si、sk、sl、so、sq、sr、su、sv、sw、ta、te、th、tl、tr、ug、uk、ur、uz、vi、xh、yi、zh

屬性

詳情

標籤

exbert

支持語言

多語言，包括 af、am、ar、as、az、be、bg、bn、br、bs、ca、cs、cy、da、de、el、en、eo、es、et、eu、fa、fi、fr、fy、ga、gd、gl、gu、ha、he、hi、hr、hu、hy、id、is、it、ja、jv、ka、kk、km、kn、ko、ku、ky、la、lo、lt、lv、mg、mk、ml、mn、mr、ms、my、ne、nl、no、om、or、pa、pl、ps、pt、ro、ru、sa、sd、si、sk、sl、so、sq、sr、su、sv、sw、ta、te、th、tl、tr、ug、uk、ur、uz、vi、xh、yi、zh