🚀 mBART-50 ワン・トゥ・マニ多言語機械翻訳
このモデルは、多言語機械翻訳を目的とした、mBART-large-50 をファインチューニングしたチェックポイントです。論文 Multilingual Translation with Extensible Multilingual Pretraining and Finetuning で紹介されています。
🚀 クイックスタート
このモデルは英語を以下に挙げる他の49言語に翻訳することができます。目的言語に翻訳するには、目的言語のIDを最初に生成されるトークンとして強制する必要があります。これを行うには、generate
メソッドに forced_bos_token_id
パラメータを渡します。
💻 使用例
基本的な使用法
from transformers import MBartForConditionalGeneration, MBart50TokenizerFast
article_en = "The head of the United Nations says there is no military solution in Syria"
model = MBartForConditionalGeneration.from_pretrained("facebook/mbart-large-50-one-to-many-mmt")
tokenizer = MBart50TokenizerFast.from_pretrained("facebook/mbart-large-50-one-to-many-mmt", src_lang="en_XX")
model_inputs = tokenizer(article_en, return_tensors="pt")
generated_tokens = model.generate(
**model_inputs,
forced_bos_token_id=tokenizer.lang_code_to_id["hi_IN"]
)
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
generated_tokens = model.generate(
**model_inputs,
forced_bos_token_id=tokenizer.lang_code_to_id["zh_CN"]
)
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
📚 ドキュメント
対応言語
アラビア語 (ar_AR), チェコ語 (cs_CZ), ドイツ語 (de_DE), 英語 (en_XX), スペイン語 (es_XX), エストニア語 (et_EE), フィンランド語 (fi_FI), フランス語 (fr_XX), グジャラート語 (gu_IN), ヒンディー語 (hi_IN), イタリア語 (it_IT), 日本語 (ja_XX), カザフ語 (kk_KZ), 韓国語 (ko_KR), リトアニア語 (lt_LT), ラトビア語 (lv_LV), ビルマ語 (my_MM), ネパール語 (ne_NP), オランダ語 (nl_XX), ルーマニア語 (ro_RO), ロシア語 (ru_RU), シンハラ語 (si_LK), トルコ語 (tr_TR), ベトナム語 (vi_VN), 中国語 (zh_CN), アフリカーンス語 (af_ZA), アゼルバイジャン語 (az_AZ), ベンガル語 (bn_IN), ペルシャ語 (fa_IR), ヘブライ語 (he_IL), クロアチア語 (hr_HR), インドネシア語 (id_ID), グルジア語 (ka_GE), クメール語 (km_KH), マケドニア語 (mk_MK), マラヤーラム語 (ml_IN), モンゴル語 (mn_MN), マラーティー語 (mr_IN), ポーランド語 (pl_PL), パシュトー語 (ps_AF), ポルトガル語 (pt_XX), スウェーデン語 (sv_SE), スワヒリ語 (sw_KE), タミル語 (ta_IN), テルグ語 (te_IN), タイ語 (th_TH), タガログ語 (tl_XX), ウクライナ語 (uk_UA), ウルドゥー語 (ur_PK), コサ語 (xh_ZA), ガリシア語 (gl_ES), スロベニア語 (sl_SI)
BibTeXエントリと引用情報
@article{tang2020multilingual,
title={Multilingual Translation with Extensible Multilingual Pretraining and Finetuning},
author={Yuqing Tang and Chau Tran and Xian Li and Peng-Jen Chen and Naman Goyal and Vishrav Chaudhary and Jiatao Gu and Angela Fan},
year={2020},
eprint={2008.00401},
archivePrefix={arXiv},
primaryClass={cs.CL}
}