🚀 ara - heb 翻译项目
本项目专注于阿拉伯语(Arabic)到希伯来语(Hebrew)的翻译任务,采用了 transformer 模型,为语言翻译提供了有效的解决方案。
✨ 主要特性
- 多源语言支持:支持多种阿拉伯语变体,包括
apc
、apc_Latn
、ara
、arq
、arz
等作为源语言。
- 特定目标语言:目标语言为希伯来语(
heb
)。
- 预处理方式:采用归一化(normalization)和 SentencePiece(
spm32k
)进行预处理。
📦 安装指南
暂未提供安装步骤,若有相关需求请关注后续更新。
📚 详细文档
项目基本信息
- 源语言组:阿拉伯语(Arabic)
- 目标语言组:希伯来语(Hebrew)
- OPUS 说明文档:[ara - heb](https://github.com/Helsinki - NLP/Tatoeba - Challenge/tree/master/models/ara - heb/README.md)
模型信息
- 模型类型:transformer
- 源语言:
apc
、apc_Latn
、ara
、arq
、arz
- 目标语言:
heb
- 预处理:归一化 + SentencePiece(
spm32k
,spm32k
)
- 原始权重下载:[opus - 2020 - 07 - 03.zip](https://object.pouta.csc.fi/Tatoeba - MT - models/ara - heb/opus - 2020 - 07 - 03.zip)
- 测试集翻译:[opus - 2020 - 07 - 03.test.txt](https://object.pouta.csc.fi/Tatoeba - MT - models/ara - heb/opus - 2020 - 07 - 03.test.txt)
- 测试集分数:[opus - 2020 - 07 - 03.eval.txt](https://object.pouta.csc.fi/Tatoeba - MT - models/ara - heb/opus - 2020 - 07 - 03.eval.txt)
基准测试
测试集 |
BLEU |
chr - F |
Tatoeba - test.ara.heb |
40.4 |
0.605 |
系统信息
属性 |
详情 |
hf 名称 |
ara - heb |
源语言 |
ara |
目标语言 |
heb |
OPUS 说明文档链接 |
[https://github.com/Helsinki - NLP/Tatoeba - Challenge/tree/master/models/ara - heb/README.md](https://github.com/Helsinki - NLP/Tatoeba - Challenge/tree/master/models/ara - heb/README.md) |
原始仓库 |
Tatoeba - Challenge |
标签 |
['translation'] |
语言 |
['ar', 'he'] |
源语言成分 |
{'apc', 'ara', 'arq_Latn', 'arq', 'afb', 'ara_Latn', 'apc_Latn', 'arz'} |
目标语言成分 |
{'heb'} |
源语言多语言性 |
False |
目标语言多语言性 |
False |
预处理 |
归一化 + SentencePiece(spm32k ,spm32k ) |
模型链接 |
[https://object.pouta.csc.fi/Tatoeba - MT - models/ara - heb/opus - 2020 - 07 - 03.zip](https://object.pouta.csc.fi/Tatoeba - MT - models/ara - heb/opus - 2020 - 07 - 03.zip) |
测试集链接 |
[https://object.pouta.csc.fi/Tatoeba - MT - models/ara - heb/opus - 2020 - 07 - 03.test.txt](https://object.pouta.csc.fi/Tatoeba - MT - models/ara - heb/opus - 2020 - 07 - 03.test.txt) |
源语言三字母代码 |
ara |
目标语言三字母代码 |
heb |
短语言对 |
ar - he |
chrF2 分数 |
0.605 |
BLEU 分数 |
40.4 |
简洁惩罚 |
1.0 |
参考长度 |
6801.0 |
源语言名称 |
阿拉伯语 |
目标语言名称 |
希伯来语 |
训练日期 |
2020 - 07 - 03 |
源语言两字母代码 |
ar |
目标语言两字母代码 |
he |
是否优先旧版本 |
False |
长语言对 |
ara - heb |
赫尔辛基代码提交哈希 |
480fcbe0ee1bf4774bcbe6226ad9f58e63f6c535 |
transformers 代码提交哈希 |
2207e5d8cb224e954a7cba69fa4ac2309e9ff30b |
移植机器 |
brutasse |
移植时间 |
2020 - 08 - 21 - 14:41 |
📄 许可证
本项目采用 Apache - 2.0 许可证。