t5_translate_en_ru_zh_large_1024開源翻譯模型

首頁

T5 Translate En Ru Zh Large 1024

由utrobinmv開發

這是一個基於T5架構的多語言機器翻譯模型，支持英語、俄語和中文之間的互譯。

機器翻譯

Transformers

支持多種語言開源協議:Apache-2.0 #多語言互譯 #T5架構 #俄漢英三語

下載量 1,472

發布時間 : 1/19/2024

模型概述

該模型是一個常規的T5轉換器，在多任務模式下進行目標語言翻譯，專門針對俄漢、漢俄、英漢、漢英、英俄、俄英等語言對進行配置。可以直接在俄語、中文或英語之間進行任意語言對的翻譯。

模型特點

多語言支持

支持英語、俄語和中文三種語言之間的互譯。

多任務模式

可以在單一模型中處理多種語言對的翻譯任務。

靈活翻譯

通過指定目標語言前綴即可完成翻譯，無需指定源語言。

模型能力

俄語到中文翻譯

中文到俄語翻譯

英語到中文翻譯

中文到英語翻譯

英語到俄語翻譯

俄語到英語翻譯

使用案例

語言翻譯

多語言文檔翻譯

將文檔在英語、俄語和中文之間進行互譯。

即時翻譯服務

集成到應用程序中提供即時翻譯功能。

🚀 T5英、俄、中文多語言機器翻譯

本模型是一個處於多任務模式下的傳統T5變換器模型，用於將文本翻譯成所需語言。它經過精確配置，可處理以下語言對的機器翻譯：俄 - 中、中 - 俄、英 - 中、中 - 英、英 - 俄、俄 - 英。

該模型能夠在俄語、中文和英語任意兩種語言之間進行直接翻譯。若要將文本翻譯成目標語言，需在文本前添加目標語言標識符作為前綴，即 'translate to :'。此時，無需指定源語言，而且源文本可以是多語言的。

🚀 快速開始

俄譯中示例

from transformers import T5ForConditionalGeneration, T5Tokenizer

device = 'cuda' #or 'cpu' for translate on cpu

model_name = 'utrobinmv/t5_translate_en_ru_zh_large_1024'
model = T5ForConditionalGeneration.from_pretrained(model_name)
model.to(device)
tokenizer = T5Tokenizer.from_pretrained(model_name)

prefix = 'translate to zh: '
src_text = prefix + "Съешь ещё этих мягких французских булок."

# translate Russian to Chinese
input_ids = tokenizer(src_text, return_tensors="pt")

generated_tokens = model.generate(**input_ids.to(device))

result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(result)
# 再吃這些法國的甜蜜的麵包。

中譯俄示例

from transformers import T5ForConditionalGeneration, T5Tokenizer

device = 'cuda' #or 'cpu' for translate on cpu

model_name = 'utrobinmv/t5_translate_en_ru_zh_large_1024'
model = T5ForConditionalGeneration.from_pretrained(model_name)
model.to(device)
tokenizer = T5Tokenizer.from_pretrained(model_name)

prefix = 'translate to ru: '
src_text = prefix + "再吃這些法國的甜蜜的麵包。"

# translate Russian to Chinese
input_ids = tokenizer(src_text, return_tensors="pt")

generated_tokens = model.generate(**input_ids.to(device))

result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(result)
# Съешьте этот сладкий хлеб из Франции.

✨ 主要特性

可在俄語、中文和英語任意兩種語言之間進行直接翻譯。
翻譯時只需指定目標語言標識符作為前綴，源語言可不指定，源文本也可以是多語言的。

💻 使用示例

基礎用法

from transformers import T5ForConditionalGeneration, T5Tokenizer

device = 'cuda' #or 'cpu' for translate on cpu

model_name = 'utrobinmv/t5_translate_en_ru_zh_large_1024'
model = T5ForConditionalGeneration.from_pretrained(model_name)
model.to(device)
tokenizer = T5Tokenizer.from_pretrained(model_name)

prefix = 'translate to zh: '
src_text = prefix + "Съешь ещё этих мягких французских булок."

# translate Russian to Chinese
input_ids = tokenizer(src_text, return_tensors="pt")

generated_tokens = model.generate(**input_ids.to(device))

result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(result)
# 再吃這些法國的甜蜜的麵包。

高級用法

# 可以根據需要調整模型的生成參數，如生成的最大長度、束搜索的束數等，以獲得更好的翻譯效果。
from transformers import T5ForConditionalGeneration, T5Tokenizer

device = 'cuda' #or 'cpu' for translate on cpu

model_name = 'utrobinmv/t5_translate_en_ru_zh_large_1024'
model = T5ForConditionalGeneration.from_pretrained(model_name)
model.to(device)
tokenizer = T5Tokenizer.from_pretrained(model_name)

prefix = 'translate to zh: '
src_text = prefix + "Съешь ещё этих мягких французских булок."

input_ids = tokenizer(src_text, return_tensors="pt")

# 調整生成參數
generated_tokens = model.generate(**input_ids.to(device), max_length=50, num_beams=5)

result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(result)

📚 詳細文檔

該模型是一個多任務模式下的傳統T5變換器模型，專門用於特定語言對的機器翻譯。在進行翻譯時，只需在源文本前添加目標語言標識符作為前綴，即可實現翻譯。源語言無需指定，源文本也可以是多語言的。

🔧 技術細節

本模型是一個經過精確配置的T5變換器模型，用於處理俄語、中文和英語之間的機器翻譯。它可以直接在任意兩種語言之間進行翻譯，通過在源文本前添加目標語言標識符作為前綴來指定目標語言。模型的訓練數據可能來自於ccmatrix數據集，評估指標使用了sacrebleu。

📄 許可證

本項目採用Apache 2.0許可證。

📦 支持語言

語言	代碼
俄語	ru_RU
中文	zh_CN
英語	en_US

📋 在線示例

示例標題	文本
中譯俄	translate to ru: 開發的目的是為用戶提供個人同步翻譯。
俄譯英	translate to en: Цель разработки — предоставить пользователям личного синхронного переводчика.
英譯俄	translate to ru: The purpose of the development is to provide users with a personal synchronized interpreter.
英譯中	translate to zh: The purpose of the development is to provide users with a personal synchronized interpreter.
中譯英	translate to en: 開發的目的是為用戶提供個人同步解釋器。
俄譯中	translate to zh: Цель разработки — предоставить пользователям личного синхронного переводчика.