🚀 xlm-clm-ende-1024
xlm-clm-ende-1024是一个基于Transformer架构的预训练语言模型,使用因果语言建模(CLM)目标(下一个词预测)针对英语 - 德语进行训练。该模型可用于因果语言建模任务。
🚀 快速开始
使用以下代码开始使用该模型:
import torch
from transformers import XLMTokenizer, XLMWithLMHeadModel
tokenizer = XLMTokenizer.from_pretrained("xlm-clm-ende-1024")
model = XLMWithLMHeadModel.from_pretrained("xlm-clm-ende-1024")
input_ids = torch.tensor([tokenizer.encode("Wikipedia was used to")])
language_id = tokenizer.lang2id["en"]
langs = torch.tensor([language_id] * input_ids.shape[1])
langs = langs.view(1, -1)
outputs = model(input_ids, langs=langs)
✨ 主要特性
- 跨语言能力:支持英语和德语两种语言,可用于跨语言的因果语言建模任务。
- 预训练模型:基于Transformer架构进行预训练,能够学习到语言的通用特征。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
基础用法
import torch
from transformers import XLMTokenizer, XLMWithLMHeadModel
tokenizer = XLMTokenizer.from_pretrained("xlm-clm-ende-1024")
model = XLMWithLMHeadModel.from_pretrained("xlm-clm-ende-1024")
input_ids = torch.tensor([tokenizer.encode("Wikipedia was used to")])
language_id = tokenizer.lang2id["en"]
langs = torch.tensor([language_id] * input_ids.shape[1])
langs = langs.view(1, -1)
outputs = model(input_ids, langs=langs)
高级用法
文档未提及高级用法代码示例,故跳过此部分。
📚 详细文档
模型详情
XLM模型由Guillaume Lample和Alexis Conneau在论文Cross-lingual Language Model Pretraining中提出。xlm-clm-ende-1024是一个使用因果语言建模(CLM)目标(下一个词预测)针对英语 - 德语进行预训练的Transformer模型。
使用方式
直接使用
该模型是一个语言模型,可用于因果语言建模。
下游使用
要了解更多关于此任务和潜在的下游使用方式,请参阅Hugging Face多语言推理模型文档。
超出范围的使用
该模型不应用于故意为人们创造敌对或排斥性的环境。
偏差、风险和局限性
大量研究已经探讨了语言模型的偏差和公平性问题(例如,参见Sheng等人(2021)和Bender等人(2021))。
建议
用户(直接用户和下游用户)应该了解该模型的风险、偏差和局限性。
训练
有关训练数据和训练过程的详细信息,请参阅相关论文。
评估
测试数据、因素和指标
有关测试数据、因素和指标的详细信息,请参阅相关论文。
结果
有关xlm-clm-ende-1024的结果,请参阅相关论文的表2。
环境影响
可以使用Lacoste等人(2019)中提出的机器学习影响计算器来估算碳排放。
属性 |
详情 |
硬件类型 |
需要更多信息 |
使用时长 |
需要更多信息 |
云服务提供商 |
需要更多信息 |
计算区域 |
需要更多信息 |
碳排放 |
需要更多信息 |
技术规格
模型开发者表示:
我们使用PyTorch(Paszke等人,2017)实现所有模型,并在64个Volta GPU上进行语言建模任务的训练,在8个GPU上进行机器翻译任务的训练。我们使用float16运算来加速训练并减少模型的内存使用。
有关更多详细信息,请参阅相关论文。
引用
BibTeX:
@article{lample2019cross,
title={Cross-lingual language model pretraining},
author={Lample, Guillaume and Conneau, Alexis},
journal={arXiv preprint arXiv:1901.07291},
year={2019}
}
APA:
- Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.
模型卡片作者
此模型卡片由Hugging Face团队编写。