wmt21-dense-24-wide-x-en開源翻譯模型 - 支持7種語言到英語的多語言翻譯

首頁

Wmt21 Dense 24 Wide X En

由facebook開發

47億參數的多語言編碼器-解碼器模型，支持7種語言到英語的翻譯

機器翻譯

Transformers

支持多種語言開源協議:MIT #多語言翻譯 #47億參數 #新聞領域優化

下載量 17

發布時間 : 3/2/2022

模型概述

專為一對多多語言翻譯任務訓練的序列到序列模型，可將豪薩語、冰島語、日語、捷克語、俄語、中文、德語翻譯為英語

模型特點

多語言支持

支持7種不同語言到英語的高質量翻譯

大規模參數

47億參數的強大模型架構，提供更準確的翻譯結果

領域適應性

支持新聞領域和其他領域的文本翻譯，通過前綴標籤區分

模型能力

多語言文本翻譯

新聞領域文本處理

跨語言信息轉換

使用案例

語言服務

新聞翻譯

將非英語新聞內容快速翻譯為英語

保持原文語義的高質量翻譯

跨語言交流

幫助用戶理解不同語言的文本內容

實現7種語言到英語的即時轉換

教育研究

語言學習輔助

為語言學習者提供參考翻譯

準確的多語言對照學習材料

🚀 WMT 21 X-En

WMT 21 X-En 是一個擁有 47 億參數的多語言編解碼器（序列到序列）模型，專為一對多的多語言翻譯任務而訓練。該模型能有效解決多種語言到英語的翻譯問題，為跨語言交流提供了強大的支持。

🚀 快速開始

WMT 21 X-En 模型可直接將 7 種語言的文本翻譯成英語，這 7 種語言分別是：豪薩語（ha）、冰島語（is）、日語（ja）、捷克語（cs）、俄語（ru）、中文（zh）和德語（de）。

若要將文本翻譯成目標語言，需將目標語言的 ID 作為首個生成的標記。可通過向 generate 方法傳遞 forced_bos_token_id 參數來實現這一操作。

⚠️ 重要提示

M2M100Tokenizer 依賴於 sentencepiece，因此在運行示例代碼前，請確保已安裝該庫。可通過運行 pip install sentencepiece 來安裝 sentencepiece。

由於該模型是使用領域標籤進行訓練的，所以在輸入時也需要在文本前添加相應的領域標籤：

"wmtdata newsdomain"：用於新聞領域的句子。
"wmtdata otherdomain"：用於其他所有領域的句子。

💻 使用示例

基礎用法

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

model = AutoModelForSeq2SeqLM.from_pretrained("facebook/wmt21-dense-24-wide-x-en")
tokenizer = AutoTokenizer.from_pretrained("facebook/wmt21-dense-24-wide-x-en")

# translate German to English
tokenizer.src_lang = "de"
inputs = tokenizer("wmtdata newsdomain Ein Modell für viele Sprachen", return_tensors="pt")
generated_tokens = model.generate(**inputs)
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
# => "A model for many languages"

# translate Icelandic to English
tokenizer.src_lang = "is"
inputs = tokenizer("wmtdata newsdomain Ein fyrirmynd fyrir mörg tungumál", return_tensors="pt")
generated_tokens = model.generate(**inputs)
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
# => "One model for many languages"

高級用法

可訪問模型中心查找更多經過微調的版本。

📚 詳細文檔

支持的語言

該模型支持的語言包括：英語（en）、豪薩語（ha）、冰島語（is）、日語（ja）、捷克語（cs）、俄語（ru）、中文（zh）和德語（de）。

BibTeX 引用和引用信息

@inproceedings{tran2021facebook
  title={Facebook AI’s WMT21 News Translation Task Submission},
  author={Chau Tran and Shruti Bhosale and James Cross and Philipp Koehn and Sergey Edunov and Angela Fan},
  booktitle={Proc. of WMT},
  year={2021},
}