xlm-roberta-large-finetuned-conll03-german開源模型 - 支持德語多語言命名實體識別

首頁

Xlm Roberta Large Finetuned Conll03 German

由FacebookAI開發

基於XLM-RoBERTa-large模型在德語CoNLL-2003數據集上微調的多語言命名實體識別模型

序列標註支持多種語言#德語命名實體識別 #多語言預訓練 #CoNLL2003微調

下載量 18.52k

發布時間 : 3/2/2022

模型概述

該模型是在德語數據集上微調的XLM-RoBERTa-large版本，主要用於命名實體識別(NER)任務，能夠識別文本中的人名、地名、機構名等實體。

模型特點

多語言預訓練

基於100種語言的2.5TB CommonCrawl數據進行預訓練

德語專業微調

在德語CoNLL-2003數據集上進行微調，優化德語NER任務表現

大規模模型

基於XLM-RoBERTa-large架構，具有強大的語言理解能力

模型能力

命名實體識別

詞元分類

德語文本處理

使用案例

信息提取

新聞文本實體識別

從德語新聞中提取人名、地名、機構名等關鍵信息

可準確識別德語文本中的各類命名實體

文檔自動化處理

自動化處理德語法律或商業文檔中的實體信息

提高文檔處理效率和準確性

🚀 xlm-roberta-large-finetuned-conll03-german

本項目是一個基於XLM - RoBERTa的多語言模型，在德語的CoNLL - 2003數據集上進行了微調，可用於令牌分類等自然語言理解任務。

🚀 快速開始

使用以下代碼開始使用該模型，你可以在命名實體識別（NER）的管道中直接使用此模型。

點擊展開

>>> from transformers import AutoTokenizer, AutoModelForTokenClassification
>>> from transformers import pipeline
>>> tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-large-finetuned-conll03-german")
>>> model = AutoModelForTokenClassification.from_pretrained("xlm-roberta-large-finetuned-conll03-german")
>>> classifier = pipeline("ner", model=model, tokenizer=tokenizer)
>>> classifier("Bayern München ist wieder alleiniger Top-Favorit auf den Gewinn der deutschen Fußball-Meisterschaft.")

[{'end': 6,
  'entity': 'I-ORG',
  'index': 1,
  'score': 0.99999166,
  'start': 0,
  'word': '▁Bayern'},
 {'end': 14,
  'entity': 'I-ORG',
  'index': 2,
  'score': 0.999987,
  'start': 7,
  'word': '▁München'},
 {'end': 77,
  'entity': 'I-MISC',
  'index': 16,
  'score': 0.9999728,
  'start': 68,
  'word': '▁deutschen'}]

✨ 主要特性

多語言支持：XLM - RoBERTa是在100種不同語言上訓練的多語言模型。
特定任務微調：該模型在德語的CoNLL - 2003數據集上進行了微調，適用於德語的令牌分類任務。
應用廣泛：可用於命名實體識別（NER）和詞性標註（PoS）等下游任務。

📚 詳細文檔

模型詳情

模型描述

XLM - RoBERTa模型由Alexis Conneau、Kartikay Khandelwal等人在論文Unsupervised Cross - lingual Representation Learning at Scale中提出，它基於Facebook在2019年發佈的RoBERTa模型，是一個大型多語言模型，在2.5TB過濾後的CommonCrawl數據上進行訓練。此模型是[XLM - RoBERTa - large](https://huggingface.co/xlm - roberta - large)在德語的conll2003數據集上微調得到的。

屬性	詳情
開發者	見相關論文
模型類型	多語言語言模型
語言（NLP）	XLM - RoBERTa是在100種不同語言上訓練的多語言模型，完整列表見GitHub倉庫；該模型在德語數據集上進行了微調
許可證	需要更多信息
相關模型	[RoBERTa](https://huggingface.co/roberta - base)，XLM 父模型：[XLM - RoBERTa - large](https://huggingface.co/xlm - roberta - large)
更多信息資源	GitHub倉庫相關論文

用途

直接使用

該模型是一個語言模型，可用於令牌分類，這是一種自然語言理解任務，為文本中的某些令牌分配標籤。

下游使用

潛在的下游用例包括命名實體識別（NER）和詞性標註（PoS）。要了解更多關於令牌分類和其他潛在下游用例的信息，請參閱Hugging Face的[令牌分類文檔](https://huggingface.co/tasks/token - classification)。

超出範圍的使用

該模型不應被用於故意為人們創造敵對或疏遠的環境。

偏差、風險和侷限性

⚠️ 重要提示

讀者應該意識到，該模型生成的語言可能會讓一些人感到不安或冒犯，並且可能會傳播歷史和當前的刻板印象。

大量研究已經探討了語言模型的偏差和公平性問題（例如，見[Sheng等人（2021）](https://aclanthology.org/2021.acl - long.330.pdf)和Bender等人（2021））。

建議

用戶（直接用戶和下游用戶）應該瞭解該模型的風險、偏差和侷限性。

訓練

有關訓練數據和訓練過程的詳細信息，請參閱以下資源：

[XLM - RoBERTa - large模型卡片](https://huggingface.co/xlm - roberta - large)
CoNLL - 2003數據卡片
相關論文

評估

有關評估的詳細信息，請參閱相關論文。

環境影響

可以使用Lacoste等人（2019）中提出的機器學習影響計算器來估算碳排放。

屬性	詳情
硬件類型	500個32GB的Nvidia V100 GPU（來自相關論文）
使用時長	需要更多信息
雲服務提供商	需要更多信息
計算區域	需要更多信息
碳排放	需要更多信息

技術規格

更多詳細信息請參閱相關論文。

引用

BibTeX

@article{conneau2019unsupervised,
  title={Unsupervised Cross-lingual Representation Learning at Scale},
  author={Conneau, Alexis and Khandelwal, Kartikay and Goyal, Naman and Chaudhary, Vishrav and Wenzek, Guillaume and Guzm{\'a}n, Francisco and Grave, Edouard and Ott, Myle and Zettlemoyer, Luke and Stoyanov, Veselin},
  journal={arXiv preprint arXiv:1911.02116},
  year={2019}
}

APA

Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., ... & Stoyanov, V. (2019). Unsupervised cross - lingual representation learning at scale. arXiv preprint arXiv:1911.02116.