🚀 T5英、俄、中文多語言機器翻譯
本模型是一個處於多任務模式下的傳統T5變換器模型,用於將文本翻譯成所需語言。它經過精確配置,可處理以下語言對的機器翻譯:俄 - 中、中 - 俄、英 - 中、中 - 英、英 - 俄、俄 - 英。
該模型能夠在俄語、中文和英語任意兩種語言之間進行直接翻譯。若要將文本翻譯成目標語言,需在文本前添加目標語言標識符作為前綴,即 'translate to :'。此時,無需指定源語言,而且源文本可以是多語言的。
🚀 快速開始
俄譯中示例
from transformers import T5ForConditionalGeneration, T5Tokenizer
device = 'cuda'
model_name = 'utrobinmv/t5_translate_en_ru_zh_large_1024'
model = T5ForConditionalGeneration.from_pretrained(model_name)
model.to(device)
tokenizer = T5Tokenizer.from_pretrained(model_name)
prefix = 'translate to zh: '
src_text = prefix + "Съешь ещё этих мягких французских булок."
input_ids = tokenizer(src_text, return_tensors="pt")
generated_tokens = model.generate(**input_ids.to(device))
result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(result)
中譯俄示例
from transformers import T5ForConditionalGeneration, T5Tokenizer
device = 'cuda'
model_name = 'utrobinmv/t5_translate_en_ru_zh_large_1024'
model = T5ForConditionalGeneration.from_pretrained(model_name)
model.to(device)
tokenizer = T5Tokenizer.from_pretrained(model_name)
prefix = 'translate to ru: '
src_text = prefix + "再吃這些法國的甜蜜的麵包。"
input_ids = tokenizer(src_text, return_tensors="pt")
generated_tokens = model.generate(**input_ids.to(device))
result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(result)
✨ 主要特性
- 可在俄語、中文和英語任意兩種語言之間進行直接翻譯。
- 翻譯時只需指定目標語言標識符作為前綴,源語言可不指定,源文本也可以是多語言的。
💻 使用示例
基礎用法
from transformers import T5ForConditionalGeneration, T5Tokenizer
device = 'cuda'
model_name = 'utrobinmv/t5_translate_en_ru_zh_large_1024'
model = T5ForConditionalGeneration.from_pretrained(model_name)
model.to(device)
tokenizer = T5Tokenizer.from_pretrained(model_name)
prefix = 'translate to zh: '
src_text = prefix + "Съешь ещё этих мягких французских булок."
input_ids = tokenizer(src_text, return_tensors="pt")
generated_tokens = model.generate(**input_ids.to(device))
result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(result)
高級用法
from transformers import T5ForConditionalGeneration, T5Tokenizer
device = 'cuda'
model_name = 'utrobinmv/t5_translate_en_ru_zh_large_1024'
model = T5ForConditionalGeneration.from_pretrained(model_name)
model.to(device)
tokenizer = T5Tokenizer.from_pretrained(model_name)
prefix = 'translate to zh: '
src_text = prefix + "Съешь ещё этих мягких французских булок."
input_ids = tokenizer(src_text, return_tensors="pt")
generated_tokens = model.generate(**input_ids.to(device), max_length=50, num_beams=5)
result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(result)
📚 詳細文檔
該模型是一個多任務模式下的傳統T5變換器模型,專門用於特定語言對的機器翻譯。在進行翻譯時,只需在源文本前添加目標語言標識符作為前綴,即可實現翻譯。源語言無需指定,源文本也可以是多語言的。
🔧 技術細節
本模型是一個經過精確配置的T5變換器模型,用於處理俄語、中文和英語之間的機器翻譯。它可以直接在任意兩種語言之間進行翻譯,通過在源文本前添加目標語言標識符作為前綴來指定目標語言。模型的訓練數據可能來自於ccmatrix
數據集,評估指標使用了sacrebleu
。
📄 許可證
本項目採用Apache 2.0許可證。
📦 支持語言
語言 |
代碼 |
俄語 |
ru_RU |
中文 |
zh_CN |
英語 |
en_US |
📋 在線示例
示例標題 |
文本 |
中譯俄 |
translate to ru: 開發的目的是為用戶提供個人同步翻譯。 |
俄譯英 |
translate to en: Цель разработки — предоставить пользователям личного синхронного переводчика. |
英譯俄 |
translate to ru: The purpose of the development is to provide users with a personal synchronized interpreter. |
英譯中 |
translate to zh: The purpose of the development is to provide users with a personal synchronized interpreter. |
中譯英 |
translate to en: 開發的目的是為用戶提供個人同步解釋器。 |
俄譯中 |
translate to zh: Цель разработки — предоставить пользователям личного синхронного переводчика. |