Opus Mt Gmw Gmw
支持18种西日耳曼语支语言间的双向互译,基于Transformer架构的机器翻译模型
下载量 275
发布时间 : 3/2/2022
模型简介
该模型专门用于西日耳曼语支内部的语言互译,涵盖现代语言(如德语、英语)和历史语言变体(如古英语、哥特语),采用多语言联合训练方式实现跨语言翻译。
模型特点
多语言联合训练
通过单一模型处理18种相关语言的互译任务,实现参数共享和知识迁移
历史语言支持
包含古英语、中古英语等历史语言变体的翻译能力
标准化预处理
采用SentencePiece分词技术(spm32k)实现统一的文本表示
模型能力
西日耳曼语支内部互译
多语言联合翻译
低资源语言翻译
使用案例
学术研究
历史文献翻译
将古英语/中古英语文献翻译为现代语言
帮助语言学家研究语言演变
多语言服务
区域性内容本地化
在荷兰语、弗里西亚语等相近语言间转换内容
提升低资源语言的数字内容可及性
🚀 gmw - gmw翻译模型
本项目是一个用于西日耳曼语族语言翻译的模型,支持多种西日耳曼语族语言之间的相互翻译,为相关语言的交流和处理提供了有力的工具。
✨ 主要特性
- 多语言支持:支持包括荷兰语(nl)、英语(en)、卢森堡语(lb)、南非语(af)、德语(de)等多种西日耳曼语族语言的翻译。
- 模型类型:采用Transformer模型架构,具有强大的语言处理能力。
- 预处理:使用归一化和SentencePiece(spm32k,spm32k)进行预处理,提升模型性能。
📦 模型信息
属性 | 详情 |
---|---|
模型类型 | Transformer |
源语言组 | 西日耳曼语族语言 |
目标语言组 | 西日耳曼语族语言 |
源语言 | afr、ang_Latn、deu、eng、enm_Latn、frr、fry、gos、gsw、ksh、ltz、nds、nld、pdc、sco、stq、swg、yid |
目标语言 | afr、ang_Latn、deu、eng、enm_Latn、frr、fry、gos、gsw、ksh、ltz、nds、nld、pdc、sco、stq、swg、yid |
预处理 | 归一化 + SentencePiece(spm32k,spm32k) |
初始语言标记 | 需要以 >>id<< 形式的句子初始语言标记(id = 有效的目标语言ID) |
原权重下载地址 | opus - 2020 - 07 - 27.zip |
测试集翻译文件 | opus - 2020 - 07 - 27.test.txt |
测试集评分文件 | opus - 2020 - 07 - 27.eval.txt |
OPUS说明文档 | gmw - gmw |
📊 基准测试结果
测试集 | BLEU | chr - F |
---|---|---|
newssyscomb2009 - deueng.deu.eng | 25.3 | 0.527 |
newssyscomb2009 - engdeu.eng.deu | 19.0 | 0.502 |
news - test2008 - deueng.deu.eng | 23.7 | 0.515 |
news - test2008 - engdeu.eng.deu | 19.2 | 0.491 |
newstest2009 - deueng.deu.eng | 23.1 | 0.514 |
newstest2009 - engdeu.eng.deu | 18.6 | 0.495 |
newstest2010 - deueng.deu.eng | 25.8 | 0.545 |
newstest2010 - engdeu.eng.deu | 20.3 | 0.505 |
newstest2011 - deueng.deu.eng | 23.7 | 0.523 |
newstest2011 - engdeu.eng.deu | 18.9 | 0.490 |
newstest2012 - deueng.deu.eng | 24.4 | 0.529 |
newstest2012 - engdeu.eng.deu | 19.2 | 0.489 |
newstest2013 - deueng.deu.eng | 27.2 | 0.545 |
newstest2013 - engdeu.eng.deu | 22.4 | 0.514 |
newstest2014 - deen - deueng.deu.eng | 27.0 | 0.546 |
newstest2015 - ende - deueng.deu.eng | 28.4 | 0.552 |
newstest2015 - ende - engdeu.eng.deu | 25.3 | 0.541 |
newstest2016 - ende - deueng.deu.eng | 33.2 | 0.595 |
newstest2016 - ende - engdeu.eng.deu | 29.8 | 0.578 |
newstest2017 - ende - deueng.deu.eng | 29.0 | 0.557 |
newstest2017 - ende - engdeu.eng.deu | 23.9 | 0.534 |
newstest2018 - ende - deueng.deu.eng | 35.9 | 0.607 |
newstest2018 - ende - engdeu.eng.deu | 34.8 | 0.609 |
newstest2019 - deen - deueng.deu.eng | 32.1 | 0.579 |
newstest2019 - ende - engdeu.eng.deu | 31.0 | 0.579 |
Tatoeba - test.afr - ang.afr.ang | 0.0 | 0.065 |
Tatoeba - test.afr - deu.afr.deu | 46.8 | 0.668 |
Tatoeba - test.afr - eng.afr.eng | 58.5 | 0.728 |
Tatoeba - test.afr - enm.afr.enm | 13.4 | 0.357 |
Tatoeba - test.afr - fry.afr.fry | 5.3 | 0.026 |
Tatoeba - test.afr - gos.afr.gos | 3.5 | 0.228 |
Tatoeba - test.afr - ltz.afr.ltz | 1.6 | 0.131 |
Tatoeba - test.afr - nld.afr.nld | 55.4 | 0.715 |
Tatoeba - test.afr - yid.afr.yid | 3.4 | 0.008 |
Tatoeba - test.ang - afr.ang.afr | 3.1 | 0.096 |
Tatoeba - test.ang - deu.ang.deu | 2.6 | 0.188 |
Tatoeba - test.ang - eng.ang.eng | 5.4 | 0.211 |
Tatoeba - test.ang - enm.ang.enm | 1.7 | 0.197 |
Tatoeba - test.ang - gos.ang.gos | 6.6 | 0.186 |
Tatoeba - test.ang - ltz.ang.ltz | 5.3 | 0.072 |
Tatoeba - test.ang - yid.ang.yid | 0.9 | 0.131 |
Tatoeba - test.deu - afr.deu.afr | 52.7 | 0.699 |
Tatoeba - test.deu - ang.deu.ang | 0.8 | 0.133 |
Tatoeba - test.deu - eng.deu.eng | 43.5 | 0.621 |
Tatoeba - test.deu - enm.deu.enm | 6.9 | 0.245 |
Tatoeba - test.deu - frr.deu.frr | 0.8 | 0.200 |
Tatoeba - test.deu - fry.deu.fry | 15.1 | 0.367 |
Tatoeba - test.deu - gos.deu.gos | 2.2 | 0.279 |
Tatoeba - test.deu - gsw.deu.gsw | 1.0 | 0.176 |
Tatoeba - test.deu - ksh.deu.ksh | 0.6 | 0.208 |
Tatoeba - test.deu - ltz.deu.ltz | 12.1 | 0.274 |
Tatoeba - test.deu - nds.deu.nds | 18.8 | 0.446 |
Tatoeba - test.deu - nld.deu.nld | 48.6 | 0.669 |
Tatoeba - test.deu - pdc.deu.pdc | 4.6 | 0.198 |
Tatoeba - test.deu - sco.deu.sco | 12.0 | 0.340 |
Tatoeba - test.deu - stq.deu.stq | 3.2 | 0.240 |
Tatoeba - test.deu - swg.deu.swg | 0.5 | 0.179 |
Tatoeba - test.deu - yid.deu.yid | 1.7 | 0.160 |
Tatoeba - test.eng - afr.eng.afr | 55.8 | 0.730 |
Tatoeba - test.eng - ang.eng.ang | 5.7 | 0.157 |
Tatoeba - test.eng - deu.eng.deu | 36.7 | 0.584 |
Tatoeba - test.eng - enm.eng.enm | 2.0 | 0.272 |
Tatoeba - test.eng - frr.eng.frr | 6.1 | 0.246 |
Tatoeba - test.eng - fry.eng.fry | 15.3 | 0.378 |
Tatoeba - test.eng - gos.eng.gos | 1.2 | 0.242 |
Tatoeba - test.eng - gsw.eng.gsw | 0.9 | 0.164 |
Tatoeba - test.eng - ksh.eng.ksh | 0.9 | 0.170 |
Tatoeba - test.eng - ltz.eng.ltz | 13.7 | 0.263 |
Tatoeba - test.eng - nds.eng.nds | 17.1 | 0.410 |
Tatoeba - test.eng - nld.eng.nld | 49.6 | 0.673 |
Tatoeba - test.eng - pdc.eng.pdc | 5.1 | 0.218 |
Tatoeba - test.eng - sco.eng.sco | 34.8 | 0.587 |
Tatoeba - test.eng - stq.eng.stq | 2.1 | 0.322 |
Tatoeba - test.eng - swg.eng.swg | 1.7 | 0.192 |
Tatoeba - test.eng - yid.eng.yid | 1.7 | 0.173 |
Tatoeba - test.enm - afr.enm.afr | 13.4 | 0.397 |
Tatoeba - test.enm - ang.enm.ang | 0.7 | 0.063 |
Tatoeba - test.enm - deu.enm.deu | 41.5 | 0.514 |
Tatoeba - test.enm - eng.enm.eng | 21.3 | 0.483 |
Tatoeba - test.enm - fry.enm.fry | 0.0 | 0.058 |
Tatoeba - test.enm - gos.enm.gos | 10.7 | 0.354 |
Tatoeba - test.enm - ksh.enm.ksh | 7.0 | 0.161 |
Tatoeba - test.enm - nds.enm.nds | 18.6 | 0.316 |
Tatoeba - test.enm - nld.enm.nld | 38.3 | 0.524 |
Tatoeba - test.enm - yid.enm.yid | 0.7 | 0.128 |
Tatoeba - test.frr - deu.frr.deu | 4.1 | 0.219 |
Tatoeba - test.frr - eng.frr.eng | 14.1 | 0.186 |
Tatoeba - test.frr - fry.frr.fry | 3.1 | 0.129 |
Tatoeba - test.frr - gos.frr.gos | 3.6 | 0.226 |
Tatoeba - test.frr - nds.frr.nds | 12.4 | 0.145 |
Tatoeba - test.frr - nld.frr.nld | 9.8 | 0.209 |
Tatoeba - test.frr - stq.frr.stq | 2.8 | 0.142 |
Tatoeba - test.fry - afr.fry.afr | 0.0 | 1.000 |
Tatoeba - test.fry - deu.fry.deu | 30.1 | 0.535 |
Tatoeba - test.fry - eng.fry.eng | 28.0 | 0.486 |
Tatoeba - test.fry - enm.fry.enm | 16.0 | 0.262 |
Tatoeba - test.fry - frr.fry.frr | 5.5 | 0.160 |
Tatoeba - test.fry - gos.fry.gos | 1.6 | 0.307 |
Tatoeba - test.fry - ltz.fry.ltz | 30.4 | 0.438 |
Tatoeba - test.fry - nds.fry.nds | 8.1 | 0.083 |
Tatoeba - test.fry - nld.fry.nld | 41.4 | 0.616 |
Tatoeba - test.fry - stq.fry.stq | 1.6 | 0.217 |
Tatoeba - test.fry - yid.fry.yid | 1.6 | 0.159 |
Tatoeba - test.gos - afr.gos.afr | 6.3 | 0.318 |
Tatoeba - test.gos - ang.gos.ang | 6.2 | 0.058 |
Tatoeba - test.gos - deu.gos.deu | 11.7 | 0.363 |
Tatoeba - test.gos - eng.gos.eng | 14.9 | 0.322 |
Tatoeba - test.gos - enm.gos.enm | 9.1 | 0.398 |
Tatoeba - test.gos - frr.gos.frr | 3.3 | 0.117 |
Tatoeba - test.gos - fry.gos.fry | 13.1 | 0.387 |
Tatoeba - test.gos - ltz.gos.ltz | 3.1 | 0.154 |
Tatoeba - test.gos - nds.gos.nds | 2.4 | 0.206 |
Tatoeba - test.gos - nld.gos.nld | 13.9 | 0.395 |
Tatoeba - test.gos - stq.gos.stq | 2.1 | 0.209 |
Tatoeba - test.gos - yid.gos.yid | 1.7 | 0.147 |
Tatoeba - test.gsw - deu.gsw.deu | 10.5 | 0.350 |
Tatoeba - test.gsw - eng.gsw.eng | 10.7 | 0.299 |
Tatoeba - test.ksh - deu.ksh.deu | 12.0 | 0.373 |
Tatoeba - test.ksh - eng.ksh.eng | 3.2 | 0.225 |
Tatoeba - test.ksh - enm.ksh.enm | 13.4 | 0.308 |
Tatoeba - test.ltz - afr.ltz.afr | 37.4 | 0.525 |
Tatoeba - test.ltz - ang.ltz.ang | 2.8 | 0.036 |
Tatoeba - test.ltz - deu.ltz.deu | 40.3 | 0.596 |
Tatoeba - test.ltz - eng.ltz.eng | 31.7 | 0.490 |
Tatoeba - test.ltz - fry.ltz.fry | 36.3 | 0.658 |
Tatoeba - test.ltz - gos.ltz.gos | 2.9 | 0.209 |
Tatoeba - test.ltz - nld.ltz.nld | 38.8 | 0.530 |
Tatoeba - test.ltz - stq.ltz.stq | 5.8 | 0.165 |
Tatoeba - test.ltz - yid.ltz.yid | 1.0 | 0.159 |
Tatoeba - test.multi.multi | 36.4 | 0.568 |
Tatoeba - test.nds - deu.nds.deu | 35.0 | 0.573 |
Tatoeba - test.nds - eng.nds.eng | 29.6 | 0.495 |
Tatoeba - test.nds - enm.nds.enm | 3.7 | 0.194 |
Tatoeba - test.nds - frr.nds.frr | 6.6 | 0.133 |
Tatoeba - test.nds - fry.nds.fry | 4.2 | 0.087 |
Tatoeba - test.nds - gos.nds.gos | 2.0 | 0.243 |
Tatoeba - test.nds - nld.nds.nld | 41.4 | 0.618 |
Tatoeba - test.nds - swg.nds.swg | 0.6 | 0.178 |
Tatoeba - test.nds - yid.nds.yid | 8.3 | 0.238 |
Tatoeba - test.nld - afr.nld.afr | 59.4 | 0.759 |
Tatoeba - test.nld - deu.nld.deu | 49.9 | 0.685 |
Tatoeba - test.nld - eng.nld.eng | 54.1 | 0.699 |
Tatoeba - test.nld - enm.nld.enm | 5.0 | 0.250 |
Tatoeba - test.nld - frr.nld.frr | 2.4 | 0.224 |
Tatoeba - test.nld - fry.nld.fry | 19.4 | 0.446 |
Tatoeba - test.nld - gos.nld.gos | 2.5 | 0.273 |
Tatoeba - test.nld - ltz.nld.ltz | 13.8 | 0.292 |
Tatoeba - test.nld - nds.nld.nds | 21.3 | 0.457 |
Tatoeba - test.nld - sco.nld.sco | 14.7 | 0.423 |
Tatoeba - test.nld - stq.nld.stq | 1.9 | 0.257 |
Tatoeba - test.nld - swg.nld.swg | 4.2 | 0.162 |
Tatoeba - test.nld - yid.nld.yid | 2.6 | 0.186 |
Tatoeba - test.pdc - deu.pdc.deu | 39.7 | 0.529 |
Tatoeba - test.pdc - eng.pdc.eng | 25.0 | 0.427 |
Tatoeba - test.sco - deu.sco.deu | 28.4 | 0.428 |
Tatoeba - test.sco - eng.sco.eng | 41.8 | 0.595 |
Tatoeba - test.sco - nld.sco.nld | 36.4 | 0.565 |
Tatoeba - test.stq - deu.stq.deu | 7.7 | 0.328 |
Tatoeba - test.stq - eng.stq.eng | 21.1 | 0.428 |
Tatoeba - test.stq - frr.stq.frr | 2.0 | 0.118 |
Tatoeba - test.stq - fry.stq.fry | 6.3 | 0.255 |
Tatoeba - test.stq - gos.stq.gos | 1.4 | 0.244 |
Tatoeba - test.stq - ltz.stq.ltz | 4.4 | 0.204 |
Tatoeba - test.stq - nld.stq.nld | 10.7 | 0.371 |
Tatoeba - test.stq - yid.stq.yid | 1.4 | 0.105 |
Tatoeba - test.swg - deu.swg.deu | 9.5 | 0.343 |
Tatoeba - test.swg - eng.swg.eng | 15.1 | 0.306 |
Tatoeba - test.swg - nds.swg.nds | 0.7 | 0.196 |
Tatoeba - test.swg - nld.swg.nld | 11.6 | 0.308 |
Tatoeba - test.swg - yid.swg.yid | 0.9 | 0.186 |
Tatoeba - test.yid - afr.yid.afr | 100.0 | 1.000 |
Tatoeba - test.yid - ang.yid.ang | 0.6 | 0.079 |
Tatoeba - test.yid - deu.yid.deu | 16.7 | 0.372 |
Tatoeba - test.yid - eng.yid.eng | 15.8 | 0.344 |
Tatoeba - test.yid - enm.yid.enm | 1.3 | 0.166 |
Tatoeba - test.yid - fry.yid.fry | 5.6 | 0.157 |
Tatoeba - test.yid - gos.yid.gos | 2.2 | 0.160 |
Tatoeba - test.yid - ltz.yid.ltz | 2.1 | 0.238 |
Tatoeba - test.yid - nds.yid.nds | 14.4 | 0.365 |
Tatoeba - test.yid - nld.yid.nld | 20.9 | 0.397 |
Tatoeba - test.yid - stq.yid.stq | 3.7 | 0.165 |
Tatoeba - test.yid - swg.yid.swg | 1.8 | 0.156 |
🔧 系统信息
- Hugging Face名称:gmw - gmw
- 源语言:gmw
- 目标语言:gmw
- OPUS说明文档URL:https://github.com/Helsinki-NLP/Tatoeba-Challenge/tree/master/models/gmw-gmw/README.md
- 原始仓库:Tatoeba - Challenge
- 标签:['translation']
- 支持语言:['nl', 'en', 'lb', 'af', 'de', 'fy', 'yi', 'gmw']
- 源语言成分:{'ksh', 'nld', 'eng', 'enm_Latn', 'ltz', 'stq', 'afr', 'pdc', 'deu', 'gos', 'ang_Latn', 'fry', 'gsw', 'frr', 'nds', 'yid', 'swg', 'sco'}
- 目标语言成分:{'ksh', 'nld', 'eng', 'enm_Latn', 'ltz', 'stq', 'afr', 'pdc', 'deu', 'gos', 'ang_Latn', 'fry', 'gsw', 'frr', 'nds', 'yid', 'swg', 'sco'}
- 源语言多语言支持:True
- 目标语言多语言支持:True
- 预处理:归一化 + SentencePiece(spm32k,spm32k)
- 模型下载URL:https://object.pouta.csc.fi/Tatoeba-MT-models/gmw-gmw/opus-2020-07-27.zip
- 测试集URL:https://object.pouta.csc.fi/Tatoeba-MT-models/gmw-gmw/opus-2020-07-27.test.txt
- 源语言ISO 639 - 3代码:gmw
- 目标语言ISO 639 - 3代码:gmw
- 短语言对:gmw - gmw
- chrF2得分:0.568
- BLEU得分:36.4
- 简洁惩罚:1.0
- 参考长度:72534.0
- 源语言名称:西日耳曼语族语言
- 目标语言名称:西日耳曼语族语言
- 训练日期:2020 - 07 - 27
- 源语言ISO 639 - 2代码:gmw
- 目标语言ISO 639 - 2代码:gmw
- 是否优先旧版本:False
- 长语言对:gmw - gmw
- Helsinki Git SHA:480fcbe0ee1bf4774bcbe6226ad9f58e63f6c535
- Transformers Git SHA:2207e5d8cb224e954a7cba69fa4ac2309e9ff30b
- 移植机器:brutasse
- 移植时间:2020 - 08 - 21 - 14:41
📄 许可证
本项目采用Apache 2.0许可证。
M2m100 418M
MIT
M2M100是一个多语言编码器-解码器模型,支持100种语言的9900个翻译方向
机器翻译 支持多种语言
M
facebook
1.6M
299
Opus Mt Fr En
Apache-2.0
基于Transformer的法语到英语神经机器翻译模型,由Helsinki-NLP团队开发,采用OPUS多语数据集训练。
机器翻译 支持多种语言
O
Helsinki-NLP
1.2M
44
Opus Mt Ar En
Apache-2.0
基于OPUS数据训练的阿拉伯语到英语的机器翻译模型,采用transformer-align架构
机器翻译 支持多种语言
O
Helsinki-NLP
579.41k
42
M2m100 1.2B
MIT
M2M100是一个支持100种语言的多语言机器翻译模型,可直接在9900个翻译方向之间进行翻译。
机器翻译 支持多种语言
M
facebook
501.82k
167
Indictrans2 Indic En 1B
MIT
支持25种印度语言与英语互译的1.1B参数规模机器翻译模型,由AI4Bharat项目开发
机器翻译
Transformers 支持多种语言

I
ai4bharat
473.63k
14
Opus Mt En Zh
Apache-2.0
基于Transformer架构的英汉多方言翻译模型,支持英语到13种汉语变体的翻译任务
机器翻译 支持多种语言
O
Helsinki-NLP
442.08k
367
Opus Mt Zh En
由赫尔辛基大学开发的基于OPUS语料库的中文到英语机器翻译模型
机器翻译 支持多种语言
O
Helsinki-NLP
441.24k
505
Mbart Large 50 Many To Many Mmt
基于mBART-large-50微调的多语言机器翻译模型,支持50种语言间的互译
机器翻译 支持多种语言
M
facebook
404.66k
357
Opus Mt De En
Apache-2.0
opus-mt-de-en 是一个基于 transformer-align 架构的德语到英语的机器翻译模型,由 Helsinki-NLP 团队开发。
机器翻译 支持多种语言
O
Helsinki-NLP
404.33k
44
Opus Mt Es En
Apache-2.0
这是一个基于Transformer架构的西班牙语到英语的机器翻译模型,由Helsinki-NLP团队开发。
机器翻译
Transformers 支持多种语言

O
Helsinki-NLP
385.40k
71
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98