🚀 eng - sit 翻译模型
本项目是一个用于将英语(English)翻译成汉藏语系(Sino - Tibetan languages)多种语言的翻译模型,为跨语言交流提供了强大的支持。
🚀 快速开始
你可以通过以下链接下载模型的原始权重、测试集翻译和测试集分数:
✨ 主要特性
- 源语言组:英语(English)
- 目标语言组:汉藏语系(Sino - Tibetan languages)
- OPUS 说明文档:eng - sit
- 模型类型:Transformer
- 源语言:eng
- 目标语言:bod、brx、brx_Latn、cjy_Hans、cjy_Hant、cmn、cmn_Hans、cmn_Hant、gan、lzh、lzh_Hans、mya、nan、wuu、yue、yue_Hans、yue_Hant、zho、zho_Hans、zho_Hant
- 预处理:归一化 + SentencePiece (spm32k, spm32k)
- 输入要求:句子开头需要以
>>id<<
形式的语言标记(id 为有效的目标语言 ID)
📊 基准测试
测试集 |
BLEU |
chr - F |
newsdev2017 - enzh - engzho.eng.zho |
23.5 |
0.217 |
newstest2017 - enzh - engzho.eng.zho |
23.2 |
0.223 |
newstest2018 - enzh - engzho.eng.zho |
25.0 |
0.230 |
newstest2019 - enzh - engzho.eng.zho |
20.2 |
0.225 |
Tatoeba - test.eng - bod.eng.bod |
0.4 |
0.147 |
Tatoeba - test.eng - brx.eng.brx |
0.5 |
0.012 |
Tatoeba - test.eng.multi |
25.7 |
0.223 |
Tatoeba - test.eng - mya.eng.mya |
0.2 |
0.222 |
Tatoeba - test.eng - zho.eng.zho |
29.2 |
0.249 |
🔧 技术细节
系统信息
属性 |
详情 |
模型名称 |
eng - sit |
源语言 |
eng |
目标语言 |
sit |
OPUS 说明文档链接 |
https://github.com/Helsinki-NLP/Tatoeba-Challenge/tree/master/models/eng-sit/README.md |
原始仓库 |
Tatoeba - Challenge |
标签 |
['translation'] |
语言 |
['en', 'sit'] |
源语言组成 |
{'eng'} |
目标语言组成 |
set() |
源语言多语言支持 |
否 |
目标语言多语言支持 |
是 |
预处理 |
归一化 + SentencePiece (spm32k, spm32k) |
模型链接 |
https://object.pouta.csc.fi/Tatoeba-MT-models/eng-sit/opus2m-2020-08-01.zip |
测试集链接 |
https://object.pouta.csc.fi/Tatoeba-MT-models/eng-sit/opus2m-2020-08-01.test.txt |
源语言 ISO 639 - 3 代码 |
eng |
目标语言 ISO 639 - 3 代码 |
sit |
短语言对 |
en - sit |
chrF2 分数 |
0.223 |
BLEU 分数 |
25.7 |
简洁惩罚系数 |
0.907 |
参考长度 |
109538.0 |
源语言名称 |
English |
目标语言名称 |
Sino - Tibetan languages |
训练日期 |
2020 - 08 - 01 |
源语言 ISO 639 - 2 代码 |
en |
目标语言 ISO 639 - 2 代码 |
sit |
是否优先使用旧版本 |
否 |
长语言对 |
eng - sit |
赫尔辛基代码库 SHA 值 |
480fcbe0ee1bf4774bcbe6226ad9f58e63f6c535 |
Transformers 代码库 SHA 值 |
2207e5d8cb224e954a7cba69fa4ac2309e9ff30b |
移植机器 |
brutasse |
移植时间 |
2020 - 08 - 21 - 14:41 |
📄 许可证
本项目采用 Apache 2.0 许可证。