t5_translate_en_ru_zh_large_1024开源翻译模型

首页

T5 Translate En Ru Zh Large 1024

由 utrobinmv 开发

这是一个基于T5架构的多语言机器翻译模型，支持英语、俄语和中文之间的互译。

机器翻译

Transformers

支持多种语言开源协议:Apache-2.0 #多语言互译 #T5架构 #俄汉英三语

下载量 1,472

发布时间 : 1/19/2024

模型简介

该模型是一个常规的T5转换器，在多任务模式下进行目标语言翻译，专门针对俄汉、汉俄、英汉、汉英、英俄、俄英等语言对进行配置。可以直接在俄语、中文或英语之间进行任意语言对的翻译。

模型特点

多语言支持

支持英语、俄语和中文三种语言之间的互译。

多任务模式

可以在单一模型中处理多种语言对的翻译任务。

灵活翻译

通过指定目标语言前缀即可完成翻译，无需指定源语言。

模型能力

俄语到中文翻译

中文到俄语翻译

英语到中文翻译

中文到英语翻译

英语到俄语翻译

俄语到英语翻译

使用案例

语言翻译

多语言文档翻译

将文档在英语、俄语和中文之间进行互译。

实时翻译服务

集成到应用程序中提供实时翻译功能。

🚀 T5英、俄、中文多语言机器翻译

本模型是一个处于多任务模式下的传统T5变换器模型，用于将文本翻译成所需语言。它经过精确配置，可处理以下语言对的机器翻译：俄 - 中、中 - 俄、英 - 中、中 - 英、英 - 俄、俄 - 英。

该模型能够在俄语、中文和英语任意两种语言之间进行直接翻译。若要将文本翻译成目标语言，需在文本前添加目标语言标识符作为前缀，即 'translate to :'。此时，无需指定源语言，而且源文本可以是多语言的。

🚀 快速开始

俄译中示例

from transformers import T5ForConditionalGeneration, T5Tokenizer

device = 'cuda' #or 'cpu' for translate on cpu

model_name = 'utrobinmv/t5_translate_en_ru_zh_large_1024'
model = T5ForConditionalGeneration.from_pretrained(model_name)
model.to(device)
tokenizer = T5Tokenizer.from_pretrained(model_name)

prefix = 'translate to zh: '
src_text = prefix + "Съешь ещё этих мягких французских булок."

# translate Russian to Chinese
input_ids = tokenizer(src_text, return_tensors="pt")

generated_tokens = model.generate(**input_ids.to(device))

result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(result)
# 再吃这些法国的甜蜜的面包。

中译俄示例

from transformers import T5ForConditionalGeneration, T5Tokenizer

device = 'cuda' #or 'cpu' for translate on cpu

model_name = 'utrobinmv/t5_translate_en_ru_zh_large_1024'
model = T5ForConditionalGeneration.from_pretrained(model_name)
model.to(device)
tokenizer = T5Tokenizer.from_pretrained(model_name)

prefix = 'translate to ru: '
src_text = prefix + "再吃这些法国的甜蜜的面包。"

# translate Russian to Chinese
input_ids = tokenizer(src_text, return_tensors="pt")

generated_tokens = model.generate(**input_ids.to(device))

result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(result)
# Съешьте этот сладкий хлеб из Франции.

✨ 主要特性

可在俄语、中文和英语任意两种语言之间进行直接翻译。
翻译时只需指定目标语言标识符作为前缀，源语言可不指定，源文本也可以是多语言的。

💻 使用示例

基础用法

from transformers import T5ForConditionalGeneration, T5Tokenizer

device = 'cuda' #or 'cpu' for translate on cpu

model_name = 'utrobinmv/t5_translate_en_ru_zh_large_1024'
model = T5ForConditionalGeneration.from_pretrained(model_name)
model.to(device)
tokenizer = T5Tokenizer.from_pretrained(model_name)

prefix = 'translate to zh: '
src_text = prefix + "Съешь ещё этих мягких французских булок."

# translate Russian to Chinese
input_ids = tokenizer(src_text, return_tensors="pt")

generated_tokens = model.generate(**input_ids.to(device))

result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(result)
# 再吃这些法国的甜蜜的面包。

高级用法

# 可以根据需要调整模型的生成参数，如生成的最大长度、束搜索的束数等，以获得更好的翻译效果。
from transformers import T5ForConditionalGeneration, T5Tokenizer

device = 'cuda' #or 'cpu' for translate on cpu

model_name = 'utrobinmv/t5_translate_en_ru_zh_large_1024'
model = T5ForConditionalGeneration.from_pretrained(model_name)
model.to(device)
tokenizer = T5Tokenizer.from_pretrained(model_name)

prefix = 'translate to zh: '
src_text = prefix + "Съешь ещё этих мягких французских булок."

input_ids = tokenizer(src_text, return_tensors="pt")

# 调整生成参数
generated_tokens = model.generate(**input_ids.to(device), max_length=50, num_beams=5)

result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(result)

📚 详细文档

该模型是一个多任务模式下的传统T5变换器模型，专门用于特定语言对的机器翻译。在进行翻译时，只需在源文本前添加目标语言标识符作为前缀，即可实现翻译。源语言无需指定，源文本也可以是多语言的。

🔧 技术细节

本模型是一个经过精确配置的T5变换器模型，用于处理俄语、中文和英语之间的机器翻译。它可以直接在任意两种语言之间进行翻译，通过在源文本前添加目标语言标识符作为前缀来指定目标语言。模型的训练数据可能来自于ccmatrix数据集，评估指标使用了sacrebleu。

📄 许可证

本项目采用Apache 2.0许可证。

📦 支持语言

语言	代码
俄语	ru_RU
中文	zh_CN
英语	en_US

📋 在线示例

示例标题	文本
中译俄	translate to ru: 开发的目的是为用户提供个人同步翻译。
俄译英	translate to en: Цель разработки — предоставить пользователям личного синхронного переводчика.
英译俄	translate to ru: The purpose of the development is to provide users with a personal synchronized interpreter.
英译中	translate to zh: The purpose of the development is to provide users with a personal synchronized interpreter.
中译英	translate to en: 开发的目的是为用户提供个人同步解释器。
俄译中	translate to zh: Цель разработки — предоставить пользователям личного синхронного переводчика.