🚀 mBART - 50 多対1多言語機械翻訳
このモデルは、mBART - large - 50 の微調整済みチェックポイントです。mbart - large - 50 - many - to - one - mmt
は多言語機械翻訳用に微調整されています。このモデルは、Multilingual Translation with Extensible Multilingual Pretraining and Finetuning という論文で紹介されました。このモデルは、50 言語の任意のペア間で直接翻訳することができます。
🚀 クイックスタート
💻 使用例
基本的な使用法
from transformers import MBartForConditionalGeneration, MBart50TokenizerFast
article_hi = "संयुक्त राष्ट्र के प्रमुख का कहना है कि सीरिया में कोई सैन्य समाधान नहीं है"
article_ar = "الأمين العام للأمم المتحدة يقول إنه لا يوجد حل عسكري في سوريا."
model = MBartForConditionalGeneration.from_pretrained("facebook/mbart-large-50-many-to-one-mmt")
tokenizer = MBart50TokenizerFast.from_pretrained("facebook/mbart-large-50-many-to-one-mmt")
tokenizer.src_lang = "hi_IN"
encoded_hi = tokenizer(article_hi, return_tensors="pt")
generated_tokens = model.generate(**encoded_hi)
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
tokenizer.src_lang = "ar_AR"
encoded_ar = tokenizer(article_ar, return_tensors="pt")
generated_tokens = model.generate(**encoded_ar)
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
📚 ドキュメント
カバーされる言語
アラビア語 (ar_AR)、チェコ語 (cs_CZ)、ドイツ語 (de_DE)、英語 (en_XX)、スペイン語 (es_XX)、エストニア語 (et_EE)、フィンランド語 (fi_FI)、フランス語 (fr_XX)、グジャラート語 (gu_IN)、ヒンディー語 (hi_IN)、イタリア語 (it_IT)、日本語 (ja_XX)、カザフ語 (kk_KZ)、韓国語 (ko_KR)、リトアニア語 (lt_LT)、ラトビア語 (lv_LV)、ビルマ語 (my_MM)、ネパール語 (ne_NP)、オランダ語 (nl_XX)、ルーマニア語 (ro_RO)、ロシア語 (ru_RU)、シンハラ語 (si_LK)、トルコ語 (tr_TR)、ベトナム語 (vi_VN)、中国語 (zh_CN)、アフリカーンス語 (af_ZA)、アゼルバイジャン語 (az_AZ)、ベンガル語 (bn_IN)、ペルシャ語 (fa_IR)、ヘブライ語 (he_IL)、クロアチア語 (hr_HR)、インドネシア語 (id_ID)、グルジア語 (ka_GE)、クメール語 (km_KH)、マケドニア語 (mk_MK)、マラヤーラム語 (ml_IN)、モンゴル語 (mn_MN)、マラーティー語 (mr_IN)、ポーランド語 (pl_PL)、パシュトー語 (ps_AF)、ポルトガル語 (pt_XX)、スウェーデン語 (sv_SE)、スワヒリ語 (sw_KE)、タミル語 (ta_IN)、テルグ語 (te_IN)、タイ語 (th_TH)、タガログ語 (tl_XX)、ウクライナ語 (uk_UA)、ウルドゥー語 (ur_PK)、コサ語 (xh_ZA)、ガリシア語 (gl_ES)、スロベニア語 (sl_SI)
BibTeXエントリと引用情報
@article{tang2020multilingual,
title={Multilingual Translation with Extensible Multilingual Pretraining and Finetuning},
author={Yuqing Tang and Chau Tran and Xian Li and Peng-Jen Chen and Naman Goyal and Vishrav Chaudhary and Jiatao Gu and Angela Fan},
year={2020},
eprint={2008.00401},
archivePrefix={arXiv},
primaryClass={cs.CL}
}