🚀 WMT 21 X-En
WMT 21 X-En 是一個擁有 47 億參數的多語言編解碼器(序列到序列)模型,專為一對多的多語言翻譯任務而訓練。該模型能有效解決多種語言到英語的翻譯問題,為跨語言交流提供了強大的支持。
🚀 快速開始
WMT 21 X-En 模型可直接將 7 種語言的文本翻譯成英語,這 7 種語言分別是:豪薩語(ha)、冰島語(is)、日語(ja)、捷克語(cs)、俄語(ru)、中文(zh)和德語(de)。
若要將文本翻譯成目標語言,需將目標語言的 ID 作為首個生成的標記。可通過向 generate
方法傳遞 forced_bos_token_id
參數來實現這一操作。
⚠️ 重要提示
M2M100Tokenizer
依賴於 sentencepiece
,因此在運行示例代碼前,請確保已安裝該庫。可通過運行 pip install sentencepiece
來安裝 sentencepiece
。
由於該模型是使用領域標籤進行訓練的,所以在輸入時也需要在文本前添加相應的領域標籤:
- "wmtdata newsdomain":用於新聞領域的句子。
- "wmtdata otherdomain":用於其他所有領域的句子。
💻 使用示例
基礎用法
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
model = AutoModelForSeq2SeqLM.from_pretrained("facebook/wmt21-dense-24-wide-x-en")
tokenizer = AutoTokenizer.from_pretrained("facebook/wmt21-dense-24-wide-x-en")
tokenizer.src_lang = "de"
inputs = tokenizer("wmtdata newsdomain Ein Modell für viele Sprachen", return_tensors="pt")
generated_tokens = model.generate(**inputs)
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
tokenizer.src_lang = "is"
inputs = tokenizer("wmtdata newsdomain Ein fyrirmynd fyrir mörg tungumál", return_tensors="pt")
generated_tokens = model.generate(**inputs)
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
高級用法
可訪問 模型中心 查找更多經過微調的版本。
📚 詳細文檔
支持的語言
該模型支持的語言包括:英語(en)、豪薩語(ha)、冰島語(is)、日語(ja)、捷克語(cs)、俄語(ru)、中文(zh)和德語(de)。
BibTeX 引用和引用信息
@inproceedings{tran2021facebook
title={Facebook AI’s WMT21 News Translation Task Submission},
author={Chau Tran and Shruti Bhosale and James Cross and Philipp Koehn and Sergey Edunov and Angela Fan},
booktitle={Proc. of WMT},
year={2021},
}
📄 許可證
本項目採用 MIT 許可證。