🚀 T5英語、ロシア語、中国語の多言語機械翻訳
このモデルは、必要な言語への翻訳を行うマルチタスクモードの従来型T5トランスフォーマーです。ロシア語 - 中国語、中国語 - ロシア語、英語 - 中国語、中国語 - 英語、英語 - ロシア語、ロシア語 - 英語のペアの機械翻訳に正確に設定されています。
このモデルは、ロシア語、中国語、英語の任意のペア間で直接翻訳を行うことができます。目的言語への翻訳のために、目的言語識別子を接頭辞 'translate to :' として指定します。この場合、ソース言語は指定しなくてもよく、ソーステキストは多言語であっても構いません。
🚀 クイックスタート
このモデルを使用することで、ロシア語、中国語、英語の任意の言語ペア間で直接翻訳を行うことができます。目的言語への翻訳の際には、目的言語識別子を接頭辞として指定するだけです。
✨ 主な機能
- ロシア語、中国語、英語の任意のペア間での直接翻訳が可能。
- ソース言語を指定しなくても翻訳可能。
- ソーステキストが多言語であっても対応可能。
📦 インストール
インストールに関する具体的な手順は提供されていません。
💻 使用例
基本的な使用法
ロシア語から中国語への翻訳
from transformers import T5ForConditionalGeneration, T5Tokenizer
model_name = 'utrobinmv/t5_translate_en_ru_zh_small_1024'
model = T5ForConditionalGeneration.from_pretrained(model_name)
tokenizer = T5Tokenizer.from_pretrained(model_name)
prefix = 'translate to zh: '
src_text = prefix + "Цель разработки — предоставить пользователям личного синхронного переводчика."
input_ids = tokenizer(src_text, return_tensors="pt")
generated_tokens = model.generate(**input_ids)
result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(result)
中国語からロシア語への翻訳
from transformers import T5ForConditionalGeneration, T5Tokenizer
model_name = 'utrobinmv/t5_translate_en_ru_zh_small_1024'
model = T5ForConditionalGeneration.from_pretrained(model_name)
tokenizer = T5Tokenizer.from_pretrained(model_name)
prefix = 'translate to ru: '
src_text = prefix + "开发的目的是为用户提供个人同步翻译。"
input_ids = tokenizer(src_text, return_tensors="pt")
generated_tokens = model.generate(**input_ids)
result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(result)
📚 ドキュメント
カバーされる言語
ロシア語 (ru_RU)、中国語 (zh_CN)、英語 (en_US)
モデル指標
Property |
Details |
対応言語 |
ロシア語 (ru_RU)、中国語 (zh_CN)、英語 (en_US) |
モデル名 |
utrobinmv/t5_translate_en_ru_zh_base_200 |
タスク |
翻訳 (Translation en-ru, Translation ru-en) |
データセット |
ntrex_en-ru, ntrex_ru-en |
評価指標 |
sacrebleu, chrf, ter, meteor, rouge, bertscore など |
モデルの結果
utrobinmv/t5_translate_en_ru_zh_base_200 (Translation en-ru)
- データセット: ntrex_en-ru (test split)
- 評価指標:
- sacrebleu: 28.575940911021487
- chrf: 54.27996346886896
- ter: 62.494863914873584
- meteor: 0.5174833677740809
- ROUGE-1: 0.1908317951570274
- ROUGE-2: 0.065555552204933
- ROUGE-L: 0.1895542893295215
- ROUGE-LSUM: 0.1893813749889601
- bertscore_f1: 0.8554933660030365
- bertscore_precision: 0.8578473615646363
- bertscore_recall: 0.8534188346862793
- ソース: NTREX dataset Benchmark
utrobinmv/t5_translate_en_ru_zh_base_200 (Translation ru-en)
- データセット: ntrex_ru-en (test split)
- 評価指標:
- sacrebleu: 28.575940911021487
- chrf: 54.27996346886896
- ter: 62.494863914873584
- meteor: 0.5174833677740809
- ROUGE-1: 0.1908317951570274
- ROUGE-2: 0.065555552204933
- ROUGE-L: 0.1895542893295215
- ROUGE-LSUM: 0.1893813749889601
- bertscore_f1: 0.8554933660030365
- bertscore_precision: 0.8578473615646363
- bertscore_recall: 0.8534188346862793
- ソース: NTREX dataset Benchmark
📄 ライセンス
このモデルは Apache-2.0 ライセンスの下で提供されています。