🚀 英文到南斯拉夫语系翻译模型
本项目是一个英文到南斯拉夫语系的翻译模型,支持多种南斯拉夫语的翻译,为跨语言交流提供了有力的工具。
🚀 快速开始
你可以通过以下链接下载模型的原始权重、测试集翻译和测试集得分:
✨ 主要特性
- 多语言支持:源语言为英语,目标语言涵盖多种南斯拉夫语,包括波斯尼亚语(拉丁字母)、保加利亚语(西里尔字母和拉丁字母)、克罗地亚语、马其顿语、斯洛文尼亚语、塞尔维亚语(西里尔字母和拉丁字母)。
- 模型类型:采用Transformer模型。
- 预处理:进行归一化处理,并使用SentencePiece(spm32k,spm32k)。
- 语言标记:句子开头需要使用
>>id<<
形式的语言标记(id为有效的目标语言ID)。
📚 详细文档
eng - zls 翻译详情
属性 |
详情 |
模型类型 |
Transformer |
源语言 |
英语(eng) |
目标语言 |
波斯尼亚语(拉丁字母)(bos_Latn)、保加利亚语(西里尔字母)(bul)、保加利亚语(拉丁字母)(bul_Latn)、克罗地亚语(hrv)、马其顿语(mkd)、斯洛文尼亚语(slv)、塞尔维亚语(西里尔字母)(srp_Cyrl)、塞尔维亚语(拉丁字母)(srp_Latn) |
预处理 |
归一化 + SentencePiece(spm32k,spm32k) |
语言标记要求 |
句子开头需要使用 >>id<< 形式的语言标记(id为有效的目标语言ID) |
基准测试
测试集 |
BLEU 得分 |
chr - F 得分 |
Tatoeba - test.eng - bul.eng.bul |
47.6 |
0.657 |
Tatoeba - test.eng - hbs.eng.hbs |
40.7 |
0.619 |
Tatoeba - test.eng - mkd.eng.mkd |
45.2 |
0.642 |
Tatoeba - test.eng.multi |
42.7 |
0.622 |
Tatoeba - test.eng - slv.eng.slv |
17.9 |
0.351 |
系统信息
- HF 名称:eng - zls
- 源语言:英语(eng)
- 目标语言:南斯拉夫语系(zls)
- OPUS 说明文档链接:https://github.com/Helsinki-NLP/Tatoeba-Challenge/tree/master/models/eng-zls/README.md
- 原始仓库:Tatoeba - Challenge
- 标签:['translation']
- 支持语言:['en', 'hr', 'mk', 'bg', 'sl', 'zls']
- 源语言组成:{'eng'}
- 目标语言组成:{'hrv', 'mkd', 'srp_Latn', 'srp_Cyrl', 'bul_Latn', 'bul', 'bos_Latn', 'slv'}
- 源语言多语言性:否
- 目标语言多语言性:是
- 预处理:归一化 + SentencePiece(spm32k,spm32k)
- 模型链接:https://object.pouta.csc.fi/Tatoeba-MT-models/eng-zls/opus2m-2020-08-02.zip
- 测试集链接:https://object.pouta.csc.fi/Tatoeba-MT-models/eng-zls/opus2m-2020-08-02.test.txt
- 源语言 ISO 639 - 3 代码:eng
- 目标语言 ISO 639 - 3 代码:zls
- 短语言对:en - zls
- chrF2 得分:0.622
- BLEU 得分:42.7
- 简洁惩罚:0.9690000000000001
- 参考长度:64788.0
- 源语言名称:英语
- 目标语言名称:南斯拉夫语系
- 训练日期:2020 - 08 - 02
- 源语言 ISO 639 - 2 代码:en
- 目标语言 ISO 639 - 2 代码:zls
- 是否偏好旧版本:否
- 长语言对:eng - zls
- 赫尔辛基仓库 Git SHA:480fcbe0ee1bf4774bcbe6226ad9f58e63f6c535
- Transformers 仓库 Git SHA:2207e5d8cb224e954a7cba69fa4ac2309e9ff30b
- 移植机器:brutasse
- 移植时间:2020 - 08 - 21 - 14:41
📄 许可证
本项目采用 Apache - 2.0 许可证。