🚀 英文 - 班图语翻译模型
本项目是一个英文到班图语的翻译模型,可实现英文到多种班图语的翻译。它采用了Transformer架构,经过特定的预处理,在多个测试集上有不同的表现。
✨ 主要特性
- 多语言支持:支持将英文翻译成多种班图语,包括基尼亚卢旺达语(kin)、林加拉语(lin)、卢干达语(lug)等。
- 特定预处理:使用了归一化和SentencePiece(spm32k,spm32k)进行预处理。
- 语言令牌要求:句子开头需要使用
>>id<<
形式的语言令牌(id为有效的目标语言ID)。
📦 安装指南
文档未提及安装步骤,如需使用该模型,可参考以下信息进行尝试:
可从 opus-2020-07-26.zip 下载原始权重。
📚 详细文档
英文 - 班图语翻译详情
系统信息
属性 |
详情 |
hf名称 |
eng-bnt |
源语言 |
eng |
目标语言 |
bnt |
OPUS说明文档链接 |
https://github.com/Helsinki-NLP/Tatoeba-Challenge/tree/master/models/eng-bnt/README.md |
原始仓库 |
Tatoeba-Challenge |
标签 |
['翻译'] |
支持语言 |
['en', 'sn', 'zu', 'rw', 'lg', 'ts', 'ln', 'ny', 'xh', 'rn', 'bnt'] |
源语言组成 |
{'eng'} |
目标语言组成 |
{'sna', 'zul', 'kin', 'lug', 'tso', 'lin', 'nya', 'xho', 'swh', 'run', 'toi_Latn', 'umb'} |
源语言多语言支持 |
否 |
目标语言多语言支持 |
是 |
预处理 |
归一化 + SentencePiece(spm32k,spm32k) |
模型链接 |
https://object.pouta.csc.fi/Tatoeba-MT-models/eng-bnt/opus-2020-07-26.zip |
测试集链接 |
https://object.pouta.csc.fi/Tatoeba-MT-models/eng-bnt/opus-2020-07-26.test.txt |
源语言ISO 639-3代码 |
eng |
目标语言ISO 639-3代码 |
bnt |
短语言对 |
en-bnt |
chrF2分数 |
0.449 |
BLEU分数 |
12.1 |
简洁惩罚 |
1.0 |
参考长度 |
9989.0 |
源语言名称 |
英语 |
目标语言名称 |
班图语 |
训练日期 |
2020-07-26 |
源语言ISO 639-2代码 |
en |
目标语言ISO 639-2代码 |
bnt |
是否优先旧版本 |
否 |
长语言对 |
eng-bnt |
赫尔辛基仓库提交哈希 |
480fcbe0ee1bf4774bcbe6226ad9f58e63f6c535 |
Transformers仓库提交哈希 |
2207e5d8cb224e954a7cba69fa4ac2309e9ff30b |
移植机器 |
brutasse |
移植时间 |
2020-08-21-14:41 |
📊 基准测试
测试集 |
BLEU分数 |
chr-F分数 |
Tatoeba-test.eng-kin.eng.kin |
12.5 |
0.519 |
Tatoeba-test.eng-lin.eng.lin |
1.1 |
0.277 |
Tatoeba-test.eng-lug.eng.lug |
4.8 |
0.415 |
Tatoeba-test.eng.multi |
12.1 |
0.449 |
Tatoeba-test.eng-nya.eng.nya |
22.1 |
0.616 |
Tatoeba-test.eng-run.eng.run |
13.2 |
0.492 |
Tatoeba-test.eng-sna.eng.sna |
32.1 |
0.669 |
Tatoeba-test.eng-swa.eng.swa |
1.7 |
0.180 |
Tatoeba-test.eng-toi.eng.toi |
10.7 |
0.266 |
Tatoeba-test.eng-tso.eng.tso |
26.9 |
0.631 |
Tatoeba-test.eng-umb.eng.umb |
5.2 |
0.295 |
Tatoeba-test.eng-xho.eng.xho |
22.6 |
0.615 |
Tatoeba-test.eng-zul.eng.zul |
41.1 |
0.769 |
📄 许可证
本项目采用Apache 2.0许可证。