🚀 英语到凯尔特语翻译项目
本项目专注于英语到凯尔特语的翻译,利用特定的模型和处理方式,为英语到多种凯尔特语的翻译提供支持,具有一定的应用价值。
🚀 快速开始
本项目主要实现从英语到凯尔特语的翻译,以下是相关信息:
✨ 主要特性
- 模型类型:Transformer
- 预处理方式:归一化 + SentencePiece (spm32k, spm32k)
- 语言标记要求:句子开头需要以
>>id<<
形式的语言标记(id 为有效的目标语言 ID)
📦 安装指南
可通过下载原始权重来使用该模型:
opus2m - 2020 - 08 - 01.zip
📚 详细文档
测试集相关
基准测试
测试集 |
BLEU |
chr - F |
Tatoeba - test.eng - bre.eng.bre |
11.5 |
0.338 |
Tatoeba - test.eng - cor.eng.cor |
0.3 |
0.095 |
Tatoeba - test.eng - cym.eng.cym |
31.0 |
0.549 |
Tatoeba - test.eng - gla.eng.gla |
7.6 |
0.317 |
Tatoeba - test.eng - gle.eng.gle |
35.9 |
0.582 |
Tatoeba - test.eng - glv.eng.glv |
9.9 |
0.454 |
Tatoeba - test.eng.multi |
18.0 |
0.342 |
系统信息
属性 |
详情 |
模型名称 |
eng - cel |
源语言 |
eng |
目标语言 |
cel |
OPUS 说明文档链接 |
https://github.com/Helsinki-NLP/Tatoeba-Challenge/tree/master/models/eng-cel/README.md |
原始仓库 |
Tatoeba - Challenge |
标签 |
['translation'] |
支持语言 |
['en', 'gd', 'ga', 'br', 'kw', 'gv', 'cy', 'cel'] |
源语言组成 |
{'eng'} |
目标语言组成 |
{'gla', 'gle', 'bre', 'cor', 'glv', 'cym'} |
源语言是否多语言 |
否 |
目标语言是否多语言 |
是 |
预处理方式 |
归一化 + SentencePiece (spm32k, spm32k) |
模型下载链接 |
https://object.pouta.csc.fi/Tatoeba-MT-models/eng-cel/opus2m-2020-08-01.zip |
测试集链接 |
https://object.pouta.csc.fi/Tatoeba-MT-models/eng-cel/opus2m-2020-08-01.test.txt |
源语言 ISO 639 - 3 代码 |
eng |
目标语言 ISO 639 - 3 代码 |
cel |
短语言对 |
en - cel |
chrF2 得分 |
0.342 |
BLEU 得分 |
18.0 |
简洁惩罚系数 |
0.9590000000000001 |
参考长度 |
45370.0 |
源语言名称 |
English |
目标语言名称 |
Celtic languages |
训练日期 |
2020 - 08 - 01 |
源语言 ISO 639 - 2 代码 |
en |
目标语言 ISO 639 - 2 代码 |
cel |
是否优先旧版本 |
否 |
长语言对 |
eng - cel |
Helsinki 仓库 Git SHA |
480fcbe0ee1bf4774bcbe6226ad9f58e63f6c535 |
Transformers 仓库 Git SHA |
2207e5d8cb224e954a7cba69fa4ac2309e9ff30b |
移植机器 |
brutasse |
移植时间 |
2020 - 08 - 21 - 14:41 |
📄 许可证
本项目采用 Apache - 2.0 许可证。