🚀 mBART-50 多言語間の機械翻訳
このモデルは、mBART-large-50 をファインチューニングしたチェックポイントです。mbart-large-50-many-to-many-mmt
は多言語間の機械翻訳用にファインチューニングされています。このモデルは Multilingual Translation with Extensible Multilingual Pretraining and Finetuning という論文で紹介されました。
このモデルは50言語の任意のペア間で直接翻訳が可能です。目的言語に翻訳するには、目的言語のIDを最初に生成されるトークンとして強制する必要があります。目的言語のIDを最初のトークンとして強制するには、generate
メソッドに forced_bos_token_id
パラメータを渡します。
🚀 クイックスタート
このモデルは、mBART-large-50 をファインチューニングしたもので、多言語間の機械翻訳に使用できます。
💻 使用例
基本的な使用法
from transformers import MBartForConditionalGeneration, MBart50TokenizerFast
article_hi = "संयुक्त राष्ट्र के प्रमुख का कहना है कि सीरिया में कोई सैन्य समाधान नहीं है"
article_ar = "الأمين العام للأمم المتحدة يقول إنه لا يوجد حل عسكري في سوريا."
model = MBartForConditionalGeneration.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")
tokenizer = MBart50TokenizerFast.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")
tokenizer.src_lang = "hi_IN"
encoded_hi = tokenizer(article_hi, return_tensors="pt")
generated_tokens = model.generate(
**encoded_hi,
forced_bos_token_id=tokenizer.lang_code_to_id["fr_XX"]
)
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
tokenizer.src_lang = "ar_AR"
encoded_ar = tokenizer(article_ar, return_tensors="pt")
generated_tokens = model.generate(
**encoded_ar,
forced_bos_token_id=tokenizer.lang_code_to_id["en_XX"]
)
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
📚 ドキュメント
対応言語
アラビア語 (ar_AR), チェコ語 (cs_CZ), ドイツ語 (de_DE), 英語 (en_XX), スペイン語 (es_XX), エストニア語 (et_EE), フィンランド語 (fi_FI), フランス語 (fr_XX), グジャラート語 (gu_IN), ヒンディー語 (hi_IN), イタリア語 (it_IT), 日本語 (ja_XX), カザフ語 (kk_KZ), 韓国語 (ko_KR), リトアニア語 (lt_LT), ラトビア語 (lv_LV), ビルマ語 (my_MM), ネパール語 (ne_NP), オランダ語 (nl_XX), ルーマニア語 (ro_RO), ロシア語 (ru_RU), シンハラ語 (si_LK), トルコ語 (tr_TR), ベトナム語 (vi_VN), 中国語 (zh_CN), アフリカーンス語 (af_ZA), アゼルバイジャン語 (az_AZ), ベンガル語 (bn_IN), ペルシア語 (fa_IR), ヘブライ語 (he_IL), クロアチア語 (hr_HR), インドネシア語 (id_ID), グルジア語 (ka_GE), クメール語 (km_KH), マケドニア語 (mk_MK), マラヤーラム語 (ml_IN), モンゴル語 (mn_MN), マラーティー語 (mr_IN), ポーランド語 (pl_PL), パシュトー語 (ps_AF), ポルトガル語 (pt_XX), スウェーデン語 (sv_SE), スワヒリ語 (sw_KE), タミル語 (ta_IN), テルグ語 (te_IN), タイ語 (th_TH), タガログ語 (tl_XX), ウクライナ語 (uk_UA), ウルドゥー語 (ur_PK), コーサ語 (xh_ZA), ガリシア語 (gl_ES), スロベニア語 (sl_SI)
BibTeXエントリと引用情報
@article{tang2020multilingual,
title={Multilingual Translation with Extensible Multilingual Pretraining and Finetuning},
author={Yuqing Tang and Chau Tran and Xian Li and Peng-Jen Chen and Naman Goyal and Vishrav Chaudhary and Jiatao Gu and Angela Fan},
year={2020},
eprint={2008.00401},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
より多くのファインチューニングされたバージョンを探すには、モデルハブ を参照してください。