🚀 mBART - 50 ワン・トゥ・マニ多言語機械翻訳GGML
このモデルは、TheBloke - Llama - 2 - 13B のファインチューニングされたチェックポイントです。mbart - large - 50 - one - to - many - mmt
は多言語機械翻訳用にファインチューニングされています。このモデルは Multilingual Translation with Extensible Multilingual Pretraining and Finetuning 論文で紹介されました。
このモデルは英語を以下に挙げる他の49言語に翻訳することができます。ターゲット言語に翻訳するには、最初に生成されるトークンとしてターゲット言語IDを強制的に指定します。最初の生成トークンとしてターゲット言語IDを強制するには、generate
メソッドに forced_bos_token_id
パラメータを渡します。
🚀 クイックスタート
💻 使用例
基本的な使用法
from transformers import MBartForConditionalGeneration, MBart50TokenizerFast
article_en = "The head of the United Nations says there is no military solution in Syria"
model = MBartForConditionalGeneration.from_pretrained("SnypzZz/Llama2-13b-Language-translate")
tokenizer = MBart50TokenizerFast.from_pretrained("SnypzZz/Llama2-13b-Language-translate", src_lang="en_XX")
model_inputs = tokenizer(article_en, return_tensors="pt")
generated_tokens = model.generate(
**model_inputs,
forced_bos_token_id=tokenizer.lang_code_to_id["hi_IN"]
)
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
generated_tokens = model.generate(
**model_inputs,
forced_bos_token_id=tokenizer.lang_code_to_id["zh_CN"]
)
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
他のファインチューニングされたバージョンを探すには、[モデルハブ](https://huggingface.co/models?filter=mbart - 50) を参照してください。
📚 ドキュメント
カバーされる言語
アラビア語 (ar_AR)、チェコ語 (cs_CZ)、ドイツ語 (de_DE)、英語 (en_XX)、スペイン語 (es_XX)、エストニア語 (et_EE)、フィンランド語 (fi_FI)、フランス語 (fr_XX)、グジャラート語 (gu_IN)、ヒンディー語 (hi_IN)、イタリア語 (it_IT)、日本語 (ja_XX)、カザフ語 (kk_KZ)、韓国語 (ko_KR)、リトアニア語 (lt_LT)、ラトビア語 (lv_LV)、ビルマ語 (my_MM)、ネパール語 (ne_NP)、オランダ語 (nl_XX)、ルーマニア語 (ro_RO)、ロシア語 (ru_RU)、シンハラ語 (si_LK)、トルコ語 (tr_TR)、ベトナム語 (vi_VN)、中国語 (zh_CN)、アフリカーンス語 (af_ZA)、アゼルバイジャン語 (az_AZ)、ベンガル語 (bn_IN)、ペルシャ語 (fa_IR)、ヘブライ語 (he_IL)、クロアチア語 (hr_HR)、インドネシア語 (id_ID)、グルジア語 (ka_GE)、クメール語 (km_KH)、マケドニア語 (mk_MK)、マラヤーラム語 (ml_IN)、モンゴル語 (mn_MN)、マラーティー語 (mr_IN)、ポーランド語 (pl_PL)、パシュトー語 (ps_AF)、ポルトガル語 (pt_XX)、スウェーデン語 (sv_SE)、スワヒリ語 (sw_KE)、タミル語 (ta_IN)、テルグ語 (te_IN)、タイ語 (th_TH)、タガログ語 (tl_XX)、ウクライナ語 (uk_UA)、ウルドゥー語 (ur_PK)、コーサ語 (xh_ZA)、ガリシア語 (gl_ES)、スロベニア語 (sl_SI)
BibTeXエントリと引用情報
@article{tang2020multilingual,
title={Multilingual Translation with Extensible Multilingual Pretraining and Finetuning},
author={Yuqing Tang and Chau Tran and Xian Li and Peng-Jen Chen and Naman Goyal and Vishrav Chaudhary and Jiatao Gu and Angela Fan},
year={2020},
eprint={2008.00401},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Discord
これらのモデルやAI全般に関するさらなるサポートや議論に参加するには、以下に参加してください。
SnypzZzのDiscordサーバー
PS: 私は本当のゲームファンで、これは私のゲームサーバーでもあります。だから誰かがVALORANTや他のゲームをプレイしたい場合は、自由に私にメンションを送ってください --- @SNYPER#1942。
instagram
SnypzZzのInstagram
LinkedIn
SnypzZzのLinkedInプロフィール