🚀 T5英語、ロシア語、中国語の多言語機械翻訳
このモデルは、必要な言語への翻訳を行うマルチタスクモードの従来型T5トランスフォーマーです。具体的には、ロシア語 - 中国語、中国語 - ロシア語、英語 - 中国語、中国語 - 英語、英語 - ロシア語、ロシア語 - 英語のペアでの機械翻訳に最適化されています。
このモデルは、ロシア語、中国語、英語の任意のペア間で直接翻訳を行うことができます。目的言語への翻訳の際には、目的言語識別子を接頭辞「translate to :」として指定します。この場合、ソース言語は指定しなくてもよく、また、ソーステキストは多言語であっても構いません。
🚀 クイックスタート
ロシア語から中国語への翻訳例
from transformers import T5ForConditionalGeneration, T5Tokenizer
device = 'cuda'
model_name = 'utrobinmv/t5_translate_en_ru_zh_large_1024'
model = T5ForConditionalGeneration.from_pretrained(model_name)
model.to(device)
tokenizer = T5Tokenizer.from_pretrained(model_name)
prefix = 'translate to zh: '
src_text = prefix + "Съешь ещё этих мягких французских булок."
input_ids = tokenizer(src_text, return_tensors="pt")
generated_tokens = model.generate(**input_ids.to(device))
result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(result)
中国語からロシア語への翻訳例
from transformers import T5ForConditionalGeneration, T5Tokenizer
device = 'cuda'
model_name = 'utrobinmv/t5_translate_en_ru_zh_large_1024'
model = T5ForConditionalGeneration.from_pretrained(model_name)
model.to(device)
tokenizer = T5Tokenizer.from_pretrained(model_name)
prefix = 'translate to ru: '
src_text = prefix + "再吃这些法国的甜蜜的面包。"
input_ids = tokenizer(src_text, return_tensors="pt")
generated_tokens = model.generate(**input_ids.to(device))
result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(result)
✨ 主な機能
- このモデルは、ロシア語、中国語、英語の任意のペア間で直接翻訳を行うことができます。
- 目的言語識別子を接頭辞として指定することで、目的言語への翻訳が可能です。
- ソース言語を指定しなくてもよく、ソーステキストは多言語であっても構いません。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import T5ForConditionalGeneration, T5Tokenizer
device = 'cuda'
model_name = 'utrobinmv/t5_translate_en_ru_zh_large_1024'
model = T5ForConditionalGeneration.from_pretrained(model_name)
model.to(device)
tokenizer = T5Tokenizer.from_pretrained(model_name)
prefix = 'translate to zh: '
src_text = prefix + "Съешь ещё этих мягких французских булок."
input_ids = tokenizer(src_text, return_tensors="pt")
generated_tokens = model.generate(**input_ids.to(device))
result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(result)
高度な使用法
from transformers import T5ForConditionalGeneration, T5Tokenizer
device = 'cuda'
model_name = 'utrobinmv/t5_translate_en_ru_zh_large_1024'
model = T5ForConditionalGeneration.from_pretrained(model_name)
model.to(device)
tokenizer = T5Tokenizer.from_pretrained(model_name)
texts = [
'translate to zh: Съешь ещё этих мягких французских булок.',
'translate to ru: 再吃这些法国的甜蜜的面包。'
]
for text in texts:
input_ids = tokenizer(text, return_tensors="pt")
generated_tokens = model.generate(**input_ids.to(device))
result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(result)
📚 ドキュメント
対応言語
ロシア語 (ru_RU)、中国語 (zh_CN)、英語 (en_US)
データセット
評価指標
ウィジェット例
例のタイトル |
テキスト |
translate zh-ru |
translate to ru: 开发的目的是为用户提供个人同步翻译。 |
translate ru-en |
translate to en: Цель разработки — предоставить пользователям личного синхронного переводчика. |
translate en-ru |
translate to ru: The purpose of the development is to provide users with a personal synchronized interpreter. |
translate en-zh |
translate to zh: The purpose of the development is to provide users with a personal synchronized interpreter. |
translate zh-en |
translate to en: 开发的目的是为用户提供个人同步解释器。 |
translate ru-zh |
translate to zh: Цель разработки — предоставить пользователям личного синхронного переводчика. |
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。