🚀 英文到印度语系翻译模型
本项目是一个英文到印度语系的翻译模型,可将英文翻译成多种印度语系语言,为跨语言交流提供了有力支持。
🚀 快速开始
本模型主要用于将英文翻译成印度语系的多种语言。以下是该模型的相关信息:
- 支持语言:英语(en)、孟加拉语(bn)、奥里亚语(or)、古吉拉特语(gu)、马拉地语(mr)、乌尔都语(ur)、印地语(hi)、阿萨姆语(as)、僧伽罗语(si)等印度语系语言(inc)。
- 模型类型:Transformer
✨ 主要特性
- 多语言支持:能够处理英文到多种印度语系语言的翻译任务。
- 预处理方式:采用归一化和 SentencePiece(spm32k,spm32k)进行预处理。
- 语言标识:需要以
>>id<<
(id 为有效的目标语言 ID)形式的句子初始语言标记。
📦 安装指南
暂未提供安装步骤相关内容。
💻 使用示例
暂未提供代码示例。
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
Transformer |
源语言 |
英语(eng) |
目标语言 |
阿萨姆语(asm)、阿瓦德语(awa)、孟加拉语(ben)、博杰普尔语(bho)、果阿语(gom)、古吉拉特语(guj)、拉丁转写印地语(hif_Latn)、印地语(hin)、迈蒂利语(mai)、马拉地语(mar)、尼泊尔语(npi)、奥里亚语(ori)、旁遮普语(pan_Guru)、西部旁遮普语(pnb)、罗姆语(rom)、梵语(san_Deva)、僧伽罗语(sin)、信德语(snd_Arab)、乌尔都语(urd) |
预处理 |
归一化 + SentencePiece(spm32k,spm32k) |
语言标记 |
需要以 >>id<< (id 为有效的目标语言 ID)形式的句子初始语言标记 |
原始权重下载 |
opus2m-2020-08-01.zip |
测试集翻译 |
opus2m-2020-08-01.test.txt |
测试集分数 |
opus2m-2020-08-01.eval.txt |
基准测试
测试集 |
BLEU |
chr-F |
newsdev2014-enghin.eng.hin |
8.2 |
0.342 |
newsdev2019-engu-engguj.eng.guj |
6.5 |
0.293 |
newstest2014-hien-enghin.eng.hin |
11.4 |
0.364 |
newstest2019-engu-engguj.eng.guj |
7.2 |
0.296 |
Tatoeba-test.eng-asm.eng.asm |
2.7 |
0.277 |
Tatoeba-test.eng-awa.eng.awa |
0.5 |
0.132 |
Tatoeba-test.eng-ben.eng.ben |
16.7 |
0.470 |
Tatoeba-test.eng-bho.eng.bho |
4.3 |
0.227 |
Tatoeba-test.eng-guj.eng.guj |
17.5 |
0.373 |
Tatoeba-test.eng-hif.eng.hif |
0.6 |
0.028 |
Tatoeba-test.eng-hin.eng.hin |
17.7 |
0.469 |
Tatoeba-test.eng-kok.eng.kok |
1.7 |
0.000 |
Tatoeba-test.eng-lah.eng.lah |
0.3 |
0.028 |
Tatoeba-test.eng-mai.eng.mai |
15.6 |
0.429 |
Tatoeba-test.eng.mar.eng.mar |
21.3 |
0.477 |
Tatoeba-test.eng.multi |
17.3 |
0.448 |
Tatoeba-test.eng-nep.eng.nep |
0.8 |
0.081 |
Tatoeba-test.eng-ori.eng.ori |
2.2 |
0.208 |
Tatoeba-test.eng-pan.eng.pan |
8.0 |
0.347 |
Tatoeba-test.eng-rom.eng.rom |
0.4 |
0.197 |
Tatoeba-test.eng-san.eng.san |
0.5 |
0.108 |
Tatoeba-test.eng-sin.eng.sin |
9.1 |
0.364 |
Tatoeba-test.eng-snd.eng.snd |
4.4 |
0.284 |
Tatoeba-test.eng-urd.eng.urd |
13.3 |
0.423 |
系统信息
- 模型名称:eng-inc
- 源语言:英语(eng)
- 目标语言:印度语系语言(inc)
- OPUS 文档链接:eng-inc
- 原始仓库:Tatoeba-Challenge
- 标签:翻译(translation)
- 训练日期:2020 - 08 - 01
🔧 技术细节
暂未提供技术实现细节相关内容。
📄 许可证
本项目采用 Apache-2.0 许可证。