opus-mt-tc-big-de-zle开源翻译模型，免费实现德语到东斯拉夫语族翻译

首页

Opus Mt Tc Big De Zle

由 Helsinki-NLP 开发

这是一个用于从德语翻译到东斯拉夫语族(白俄罗斯语、俄语、乌克兰语)的神经机器翻译模型，属于OPUS-MT项目的一部分。

机器翻译

Transformers

支持多种语言#德语-东斯拉夫语翻译 #多目标语言支持 #高BLEU得分

下载量 63

发布时间 : 3/24/2022

模型简介

该模型基于transformer-big架构，支持德语到东斯拉夫语族(白俄罗斯语、俄语、乌克兰语)的翻译任务，训练数据来自OPUS语料库。

模型特点

多语言支持

支持德语到三种东斯拉夫语族(白俄罗斯语、俄语、乌克兰语)的翻译

高性能翻译

在多个测试集上表现出色，如Tatoeba测试集上德语-俄语翻译BLEU达到46.1

开源许可

采用cc-by-4.0许可，允许商业和研究用途

模型能力

德语到白俄罗斯语翻译

德语到俄语翻译

德语到乌克兰语翻译

多语言机器翻译

使用案例

文本翻译

日常用语翻译

翻译日常对话和简单句子

在Tatoeba测试集上表现良好

新闻翻译

翻译新闻文章和报道

在newstest2013测试集上BLEU达到24.9

学术研究

机器翻译研究

用于多语言机器翻译算法研究

🚀 opus-mt-tc-big-de-zle

opus-mt-tc-big-de-zle 是一个用于将德语（de）翻译成东斯拉夫语系（zle）的神经机器翻译模型。该模型是 OPUS - MT 项目的一部分，旨在让全球多种语言的神经机器翻译模型广泛可用。

🚀 快速开始

本模型是多语言翻译模型，支持多种目标语言。使用时，句子开头需要以 >>id<<（id 为有效的目标语言 ID）的形式添加语言标记，例如 >>bel<<。

以下是一个简单的示例代码：

from transformers import MarianMTModel, MarianTokenizer

src_text = [
    ">>ukr<< Der Soldat hat mir Wasser gegeben.",
    ">>ukr<< Ich will hier nicht essen."
]

model_name = "pytorch-models/opus-mt-tc-big-de-zle"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))

for t in translated:
    print( tokenizer.decode(t, skip_special_tokens=True) )

# expected output:
#     Солдат дав мені воду.
#     Я не хочу тут їсти.

你也可以使用 transformers 库的 pipeline 来调用 OPUS - MT 模型，示例如下：

from transformers import pipeline
pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-big-de-zle")
print(pipe(">>ukr<< Der Soldat hat mir Wasser gegeben."))

# expected output: Солдат дав мені воду.

✨ 主要特性

属于 OPUS - MT 项目，该项目致力于让神经机器翻译模型广泛可用。
最初使用 Marian NMT 框架进行训练，这是一个用纯 C++ 编写的高效 NMT 实现。
模型已使用 huggingface 的 transformers 库转换为 PyTorch 格式。
训练数据来自 OPUS，训练流程采用 OPUS - MT - train 的方法。

📦 安装指南

文档未提及具体安装步骤，暂无法提供。

💻 使用示例

基础用法

from transformers import MarianMTModel, MarianTokenizer

src_text = [
    ">>ukr<< Der Soldat hat mir Wasser gegeben.",
    ">>ukr<< Ich will hier nicht essen."
]

model_name = "pytorch-models/opus-mt-tc-big-de-zle"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))

for t in translated:
    print( tokenizer.decode(t, skip_special_tokens=True) )

# expected output:
#     Солдат дав мені воду.
#     Я не хочу тут їсти.

高级用法

from transformers import pipeline
pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-big-de-zle")
print(pipe(">>ukr<< Der Soldat hat mir Wasser gegeben."))

# expected output: Солдат дав мені воду.

📚 详细文档

模型信息

属性	详情
发布时间	2022 - 03 - 23
源语言	德语（deu）
目标语言	白俄罗斯语（bel）、俄语（rus）、乌克兰语（ukr）
有效目标语言标签	>>bel<< >>rus<< >>ukr<<
模型类型	transformer - big
训练数据	opusTCv20210807 (源)
分词方式	SentencePiece (spm32k,spm32k)
原始模型	opusTCv20210807_transformer - big_2022 - 03 - 23.zip
更多已发布模型信息	OPUS - MT deu - zle README
更多模型相关信息	MarianMT

基准测试

测试集翻译结果：opusTCv20210807_transformer - big_2022 - 03 - 23.test.txt
测试集得分：opusTCv20210807_transformer - big_2022 - 03 - 23.eval.txt
基准测试结果：benchmark_results.txt
基准测试输出：benchmark_translations.zip

语言对	测试集	chr - F	BLEU	句子数量	单词数量
deu - bel	tatoeba - test - v2021 - 08 - 07	0.53128	29.5	551	3601
deu - rus	tatoeba - test - v2021 - 08 - 07	0.67143	46.1	12800	87296
deu - ukr	tatoeba - test - v2021 - 08 - 07	0.62737	40.7	10319	56287
deu - rus	flores101 - devtest	0.54152	26.3	1012	23295
deu - ukr	flores101 - devtest	0.53286	24.2	1012	22810
deu - rus	newstest2012	0.49409	20.8	3003	64790
deu - rus	newstest2013	0.52631	24.9	3000	58560

模型转换信息

transformers 版本：4.16.2
OPUS - MT git 哈希值：1bdabf7
转换时间：Thu Mar 24 01:29:09 EET 2022
转换机器：LM0 - 400 - 22516.local

🔧 技术细节

本模型是 OPUS - MT 项目的一部分，最初使用 Marian NMT 框架进行训练，这是一个用纯 C++ 编写的高效 NMT 实现。之后使用 huggingface 的 transformers 库将模型转换为 PyTorch 格式。训练数据来源于 OPUS，训练流程遵循 OPUS - MT - train 的方法。

📄 许可证

本模型使用 CC - BY - 4.0 许可证。

引用

@inproceedings{tiedemann-thottingal-2020-opus,
    title = "{OPUS}-{MT} {--} Building open translation services for the World",
    author = {Tiedemann, J{\"o}rg  and Thottingal, Santhosh},
    booktitle = "Proceedings of the 22nd Annual Conference of the European Association for Machine Translation",
    month = nov,
    year = "2020",
    address = "Lisboa, Portugal",
    publisher = "European Association for Machine Translation",
    url = "https://aclanthology.org/2020.eamt-1.61",
    pages = "479--480",
}

@inproceedings{tiedemann-2020-tatoeba,
    title = "The Tatoeba Translation Challenge {--} Realistic Data Sets for Low Resource and Multilingual {MT}",
    author = {Tiedemann, J{\"o}rg},
    booktitle = "Proceedings of the Fifth Conference on Machine Translation",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.wmt-1.139",
    pages = "1174--1182",
}