XLM-mlm-ende-1024开源模型 - 轻松实现英语与德语间的语言转换推理

首页

Xlm Mlm Ende 1024

由 FacebookAI 开发

XLM-mlm-ende-1024是基于掩码语言建模(MLM)目标预训练的英语-德语Transformer模型，使用语言嵌入来指定推理语言。

大型语言模型

Transformers

支持多种语言#英语德语双语 #掩码语言建模 #跨语言预训练

下载量 245

发布时间 : 3/2/2022

模型简介

这是一个跨语言语言模型，主要用于英语和德语的掩码语言建模任务。

模型特点

跨语言能力

支持英语和德语两种语言的建模任务

Transformer架构

采用1024隐藏单元、8个头和GELU激活函数的Transformer结构

语言嵌入

使用语言嵌入来指定推理时使用的语言

模型能力

英语文本理解

德语文本理解

跨语言文本处理

掩码语言建模

使用案例

自然语言处理

文本填充

预测被掩码的单词

跨语言理解

处理英语和德语混合的文本

🚀 xlm-mlm-ende-1024

XLM模型是一个用于跨语言预训练的模型，xlm-mlm-ende-1024是针对英语 - 德语使用掩码语言建模（MLM）目标进行预训练的模型，可用于掩码语言建模任务。

🚀 快速开始

此模型使用语言嵌入来指定推理时使用的语言。更多详细信息请参阅 Hugging Face多语言推理模型文档。

✨ 主要特性

跨语言能力：支持英语和德语两种语言，可用于跨语言的任务。
预训练模型：基于掩码语言建模（MLM）目标进行预训练，可用于下游的语言相关任务。

📚 详细文档

模型详情

XLM模型由Guillaume Lample和Alexis Conneau在论文 Cross-lingual Language Model Pretraining 中提出。xlm-mlm-ende-1024是一个针对英语 - 德语使用掩码语言建模（MLM）目标进行预训练的Transformer模型。

属性	详情
开发者	Guillaume Lample, Alexis Conneau，详见相关论文
模型类型	语言模型
语言（NLP）	英语 - 德语
许可证	CC - BY - NC - 4.0
相关模型	[xlm - clm - enfr - 1024](https://huggingface.co/xlm - clm - enfr - 1024)，[xlm - clm - ende - 1024](https://huggingface.co/xlm - clm - ende - 1024)，[xlm - mlm - enfr - 1024](https://huggingface.co/xlm - mlm - enfr - 1024)，[xlm - mlm - enro - 1024](https://huggingface.co/xlm - mlm - enro - 1024)
更多信息资源	相关论文，GitHub仓库，Hugging Face多语言推理模型文档

用途

直接使用

该模型是一个语言模型，可用于掩码语言建模任务。

下游使用

要了解更多关于此任务和潜在的下游用途，请参阅Hugging Face的 [填充掩码文档](https://huggingface.co/tasks/fill - mask) 和 Hugging Face多语言推理模型文档。

超出适用范围的使用

该模型不应被用于故意为人们创造敌对或排斥性的环境。

偏差、风险和局限性

大量研究已经探讨了语言模型的偏差和公平性问题（例如，参见 [Sheng等人 (2021)](https://aclanthology.org/2021.acl - long.330.pdf) 和 Bender等人 (2021)）。

建议

用户（包括直接用户和下游用户）应该了解该模型的风险、偏差和局限性。

训练

模型开发者表示：

在所有实验中，我们使用具有1024个隐藏单元、8个注意力头、GELU激活函数（Hendrycks和Gimpel，2016）、0.1的丢弃率和学习的位置嵌入的Transformer架构。我们使用Adam优化器（Kingma和Ba，2014）、线性热身（Vaswani等人，2017）和从10^−4到5.10^−4变化的学习率来训练我们的模型。

有关训练数据和训练过程的链接、引用和更多详细信息，请参阅相关论文。

模型开发者还表示：

如果您使用这些模型，您应该使用相同的数据预处理 / BPE代码来预处理您的数据。

更多详细信息请参阅相关的 [GitHub仓库](https://github.com/facebookresearch/XLM#ii - cross - lingual - language - model - pretraining - xlm)。

评估

测试数据、因素和指标

模型开发者使用 [BLEU指标](https://huggingface.co/spaces/evaluate - metric/bleu) 在 WMT'16英语 - 德语数据集上对模型进行了评估。有关测试数据、因素和指标的更多详细信息，请参阅相关论文。

结果

有关xlm - mlm - ende - 1024的结果，请参阅相关论文中的表1和表2。

环境影响

可以使用 Lacoste等人 (2019) 中提出的机器学习影响计算器来估算碳排放。

属性	详情
硬件类型	需要更多信息
使用时长	需要更多信息
云服务提供商	需要更多信息
计算区域	需要更多信息
碳排放	需要更多信息

技术规格

模型开发者表示：

我们在PyTorch（Paszke等人，2017）中实现了所有模型，并在64个Volta GPU上进行语言建模任务的训练，在8个GPU上进行机器翻译任务的训练。我们使用float16操作来加速训练并减少模型的内存使用。

更多详细信息请参阅相关论文。

引用

BibTeX：

@article{lample2019cross,
  title={Cross-lingual language model pretraining},
  author={Lample, Guillaume and Conneau, Alexis},
  journal={arXiv preprint arXiv:1901.07291},
  year={2019}
}

APA：