🚀 WMT 21 X-En
WMT 21 X-En 是一个拥有 47 亿参数的多语言编解码器(序列到序列)模型,专为一对多的多语言翻译任务而训练。该模型能有效解决多种语言到英语的翻译问题,为跨语言交流提供了强大的支持。
🚀 快速开始
WMT 21 X-En 模型可直接将 7 种语言的文本翻译成英语,这 7 种语言分别是:豪萨语(ha)、冰岛语(is)、日语(ja)、捷克语(cs)、俄语(ru)、中文(zh)和德语(de)。
若要将文本翻译成目标语言,需将目标语言的 ID 作为首个生成的标记。可通过向 generate
方法传递 forced_bos_token_id
参数来实现这一操作。
⚠️ 重要提示
M2M100Tokenizer
依赖于 sentencepiece
,因此在运行示例代码前,请确保已安装该库。可通过运行 pip install sentencepiece
来安装 sentencepiece
。
由于该模型是使用领域标签进行训练的,所以在输入时也需要在文本前添加相应的领域标签:
- "wmtdata newsdomain":用于新闻领域的句子。
- "wmtdata otherdomain":用于其他所有领域的句子。
💻 使用示例
基础用法
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
model = AutoModelForSeq2SeqLM.from_pretrained("facebook/wmt21-dense-24-wide-x-en")
tokenizer = AutoTokenizer.from_pretrained("facebook/wmt21-dense-24-wide-x-en")
tokenizer.src_lang = "de"
inputs = tokenizer("wmtdata newsdomain Ein Modell für viele Sprachen", return_tensors="pt")
generated_tokens = model.generate(**inputs)
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
tokenizer.src_lang = "is"
inputs = tokenizer("wmtdata newsdomain Ein fyrirmynd fyrir mörg tungumál", return_tensors="pt")
generated_tokens = model.generate(**inputs)
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
高级用法
可访问 模型中心 查找更多经过微调的版本。
📚 详细文档
支持的语言
该模型支持的语言包括:英语(en)、豪萨语(ha)、冰岛语(is)、日语(ja)、捷克语(cs)、俄语(ru)、中文(zh)和德语(de)。
BibTeX 引用和引用信息
@inproceedings{tran2021facebook
title={Facebook AI’s WMT21 News Translation Task Submission},
author={Chau Tran and Shruti Bhosale and James Cross and Philipp Koehn and Sergey Edunov and Angela Fan},
booktitle={Proc. of WMT},
year={2021},
}
📄 许可证
本项目采用 MIT 许可证。