🚀 印度语系到英语翻译模型
本项目是一个用于将印度语系语言翻译成英语的模型,提供了模型的详细信息、基准测试结果以及系统相关信息,为语言翻译领域提供了有力的支持。
✨ 主要特性
- 多语言支持:支持多种印度语系语言到英语的翻译,包括阿萨姆语、孟加拉语、古吉拉特语等。
- 模型类型:采用Transformer模型进行翻译任务。
- 预处理:使用归一化和SentencePiece(spm32k,spm32k)进行预处理。
📦 相关资源
📚 基准测试
测试集 |
BLEU |
chr-F |
newsdev2014-hineng.hin.eng |
8.9 |
0.341 |
newsdev2019-engu-gujeng.guj.eng |
8.7 |
0.321 |
newstest2014-hien-hineng.hin.eng |
13.1 |
0.396 |
newstest2019-guen-gujeng.guj.eng |
6.5 |
0.290 |
Tatoeba-test.asm-eng.asm.eng |
18.1 |
0.363 |
Tatoeba-test.awa-eng.awa.eng |
6.2 |
0.222 |
Tatoeba-test.ben-eng.ben.eng |
44.7 |
0.595 |
Tatoeba-test.bho-eng.bho.eng |
29.4 |
0.458 |
Tatoeba-test.guj-eng.guj.eng |
19.3 |
0.383 |
Tatoeba-test.hif-eng.hif.eng |
3.7 |
0.220 |
Tatoeba-test.hin-eng.hin.eng |
38.6 |
0.564 |
Tatoeba-test.kok-eng.kok.eng |
6.6 |
0.287 |
Tatoeba-test.lah-eng.lah.eng |
16.0 |
0.272 |
Tatoeba-test.mai-eng.mai.eng |
75.6 |
0.796 |
Tatoeba-test.mar-eng.mar.eng |
25.9 |
0.497 |
Tatoeba-test.multi.eng |
29.0 |
0.502 |
Tatoeba-test.nep-eng.nep.eng |
4.5 |
0.198 |
Tatoeba-test.ori-eng.ori.eng |
5.0 |
0.226 |
Tatoeba-test.pan-eng.pan.eng |
17.4 |
0.375 |
Tatoeba-test.rom-eng.rom.eng |
1.7 |
0.174 |
Tatoeba-test.san-eng.san.eng |
5.0 |
0.173 |
Tatoeba-test.sin-eng.sin.eng |
31.2 |
0.511 |
Tatoeba-test.snd-eng.snd.eng |
45.7 |
0.670 |
Tatoeba-test.urd-eng.urd.eng |
25.6 |
0.456 |
🔧 系统信息
- HF名称:inc-eng
- 源语言:inc
- 目标语言:eng
- OPUS说明文档URL:https://github.com/Helsinki-NLP/Tatoeba-Challenge/tree/master/models/inc-eng/README.md
- 原始仓库:Tatoeba-Challenge
- 标签:['translation']
- 支持语言:['bn', 'or', 'gu', 'mr', 'ur', 'hi', 'as', 'si', 'inc', 'en']
- 源语言成分:{'pnb', 'gom', 'ben', 'hif_Latn', 'ori', 'guj', 'pan_Guru', 'snd_Arab', 'npi', 'mar', 'urd', 'bho', 'hin', 'san_Deva', 'asm', 'rom', 'mai', 'awa', 'sin'}
- 目标语言成分:{'eng'}
- 源语言多语言支持:True
- 目标语言多语言支持:False
- 预处理:归一化 + SentencePiece(spm32k,spm32k)
- 模型URL:https://object.pouta.csc.fi/Tatoeba-MT-models/inc-eng/opus2m-2020-08-01.zip
- 测试集URL:https://object.pouta.csc.fi/Tatoeba-MT-models/inc-eng/opus2m-2020-08-01.test.txt
- 源语言ISO 639-3代码:inc
- 目标语言ISO 639-3代码:eng
- 短语言对:inc-en
- chrF2评分:0.502
- BLEU评分:29.0
- 简洁惩罚:1.0
- 参考长度:64706.0
- 源语言名称:印度语系语言
- 目标语言名称:英语
- 训练日期:2020-08-01
- 源语言ISO 639-2代码:inc
- 目标语言ISO 639-2代码:en
- 优先旧版本:False
- 长语言对:inc-eng
- 赫尔辛基Git SHA:480fcbe0ee1bf4774bcbe6226ad9f58e63f6c535
- Transformers Git SHA:2207e5d8cb224e954a7cba69fa4ac2309e9ff30b
- 移植机器:brutasse
- 移植时间:2020-08-21-14:41
📄 许可证
本项目采用Apache-2.0许可证。