🚀 英文到北日耳曼语族翻译模型
本项目是一个英文到北日耳曼语族的翻译模型,采用Transformer架构,提供了模型的相关信息、基准测试结果以及系统信息等内容。
🚀 快速开始
本模型用于英文到北日耳曼语族语言的翻译,你可以通过以下链接下载模型原始权重、测试集翻译结果和测试集得分:
✨ 主要特性
- 多语言支持:支持英文到多种北日耳曼语族语言的翻译,包括丹麦语、法罗语、冰岛语等。
- 预处理方式:采用归一化和SentencePiece(spm32k,spm32k)进行预处理。
- 语言标记:需要以
>>id<<
(id 为有效的目标语言 ID)形式的句子初始语言标记。
📚 详细文档
翻译任务信息
属性 |
详情 |
源语言组 |
英语 |
目标语言组 |
北日耳曼语族 |
OPUS 说明文档 |
eng-gmq |
模型类型 |
Transformer |
源语言 |
英语(eng) |
目标语言 |
丹麦语(dan)、法罗语(fao)、冰岛语(isl)、新挪威语(nno)、书面挪威语(nob)、希伯来语书面挪威语(nob_Hebr)、古诺尔斯语(non_Latn)、瑞典语(swe) |
预处理 |
归一化 + SentencePiece(spm32k,spm32k) |
基准测试
测试集 |
BLEU 得分 |
chr-F 得分 |
Tatoeba-test.eng-dan.eng.dan |
57.7 |
0.724 |
Tatoeba-test.eng-fao.eng.fao |
9.2 |
0.322 |
Tatoeba-test.eng-isl.eng.isl |
23.8 |
0.506 |
Tatoeba-test.eng.multi |
52.8 |
0.688 |
Tatoeba-test.eng-non.eng.non |
0.7 |
0.196 |
Tatoeba-test.eng-nor.eng.nor |
50.3 |
0.678 |
Tatoeba-test.eng-swe.eng.swe |
57.8 |
0.717 |
系统信息
属性 |
详情 |
Hugging Face 名称 |
eng-gmq |
源语言 |
eng |
目标语言 |
gmq |
OPUS 说明文档链接 |
https://github.com/Helsinki-NLP/Tatoeba-Challenge/tree/master/models/eng-gmq/README.md |
原始仓库 |
Tatoeba-Challenge |
标签 |
['翻译'] |
支持语言 |
['en', 'da', 'nb', 'sv', 'is', 'nn', 'fo', 'gmq'] |
源语言成分 |
{'eng'} |
目标语言成分 |
{'dan', 'nob', 'nob_Hebr', 'swe', 'isl', 'nno', 'non_Latn', 'fao'} |
源语言多语言性 |
否 |
目标语言多语言性 |
是 |
预处理 |
归一化 + SentencePiece(spm32k,spm32k) |
模型链接 |
https://object.pouta.csc.fi/Tatoeba-MT-models/eng-gmq/opus2m-2020-08-01.zip |
测试集链接 |
https://object.pouta.csc.fi/Tatoeba-MT-models/eng-gmq/opus2m-2020-08-01.test.txt |
源语言 ISO 639-3 代码 |
eng |
目标语言 ISO 639-3 代码 |
gmq |
短语言对 |
en-gmq |
chrF2 得分 |
0.688 |
BLEU 得分 |
52.8 |
简洁惩罚系数 |
0.973 |
参考长度 |
71881.0 |
源语言名称 |
英语 |
目标语言名称 |
北日耳曼语族 |
训练日期 |
2020-08-01 |
源语言 ISO 639-2 代码 |
en |
目标语言 ISO 639-2 代码 |
gmq |
是否优先旧版本 |
否 |
长语言对 |
eng-gmq |
Helsinki 代码库 SHA |
480fcbe0ee1bf4774bcbe6226ad9f58e63f6c535 |
Transformers 代码库 SHA |
2207e5d8cb224e954a7cba69fa4ac2309e9ff30b |
移植机器 |
brutasse |
移植时间 |
2020-08-21-14:41 |
📄 许可证
本项目采用 Apache 2.0 许可证。