wmt21-dense-24-wide-x-en开源翻译模型 - 支持7种语言到英语的多语言翻译

首页

Wmt21 Dense 24 Wide X En

由 facebook 开发

47亿参数的多语言编码器-解码器模型，支持7种语言到英语的翻译

机器翻译

Transformers

支持多种语言开源协议:MIT #多语言翻译 #47亿参数 #新闻领域优化

下载量 17

发布时间 : 3/2/2022

模型简介

专为一对多多语言翻译任务训练的序列到序列模型，可将豪萨语、冰岛语、日语、捷克语、俄语、中文、德语翻译为英语

模型特点

多语言支持

支持7种不同语言到英语的高质量翻译

大规模参数

47亿参数的强大模型架构，提供更准确的翻译结果

领域适应性

支持新闻领域和其他领域的文本翻译，通过前缀标签区分

模型能力

多语言文本翻译

新闻领域文本处理

跨语言信息转换

使用案例

语言服务

新闻翻译

将非英语新闻内容快速翻译为英语

保持原文语义的高质量翻译

跨语言交流

帮助用户理解不同语言的文本内容

实现7种语言到英语的即时转换

教育研究

语言学习辅助

为语言学习者提供参考翻译

准确的多语言对照学习材料

🚀 WMT 21 X-En

WMT 21 X-En 是一个拥有 47 亿参数的多语言编解码器（序列到序列）模型，专为一对多的多语言翻译任务而训练。该模型能有效解决多种语言到英语的翻译问题，为跨语言交流提供了强大的支持。

🚀 快速开始

WMT 21 X-En 模型可直接将 7 种语言的文本翻译成英语，这 7 种语言分别是：豪萨语（ha）、冰岛语（is）、日语（ja）、捷克语（cs）、俄语（ru）、中文（zh）和德语（de）。

若要将文本翻译成目标语言，需将目标语言的 ID 作为首个生成的标记。可通过向 generate 方法传递 forced_bos_token_id 参数来实现这一操作。

⚠️ 重要提示

M2M100Tokenizer 依赖于 sentencepiece，因此在运行示例代码前，请确保已安装该库。可通过运行 pip install sentencepiece 来安装 sentencepiece。

由于该模型是使用领域标签进行训练的，所以在输入时也需要在文本前添加相应的领域标签：

"wmtdata newsdomain"：用于新闻领域的句子。
"wmtdata otherdomain"：用于其他所有领域的句子。

💻 使用示例

基础用法

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

model = AutoModelForSeq2SeqLM.from_pretrained("facebook/wmt21-dense-24-wide-x-en")
tokenizer = AutoTokenizer.from_pretrained("facebook/wmt21-dense-24-wide-x-en")

# translate German to English
tokenizer.src_lang = "de"
inputs = tokenizer("wmtdata newsdomain Ein Modell für viele Sprachen", return_tensors="pt")
generated_tokens = model.generate(**inputs)
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
# => "A model for many languages"

# translate Icelandic to English
tokenizer.src_lang = "is"
inputs = tokenizer("wmtdata newsdomain Ein fyrirmynd fyrir mörg tungumál", return_tensors="pt")
generated_tokens = model.generate(**inputs)
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
# => "One model for many languages"

高级用法

可访问模型中心查找更多经过微调的版本。

📚 详细文档

支持的语言

该模型支持的语言包括：英语（en）、豪萨语（ha）、冰岛语（is）、日语（ja）、捷克语（cs）、俄语（ru）、中文（zh）和德语（de）。

BibTeX 引用和引用信息

@inproceedings{tran2021facebook
  title={Facebook AI’s WMT21 News Translation Task Submission},
  author={Chau Tran and Shruti Bhosale and James Cross and Philipp Koehn and Sergey Edunov and Angela Fan},
  booktitle={Proc. of WMT},
  year={2021},
}