🚀 ara - heb 翻譯項目
本項目專注於阿拉伯語(Arabic)到希伯來語(Hebrew)的翻譯任務,採用了 transformer 模型,為語言翻譯提供了有效的解決方案。
✨ 主要特性
- 多源語言支持:支持多種阿拉伯語變體,包括
apc
、apc_Latn
、ara
、arq
、arz
等作為源語言。
- 特定目標語言:目標語言為希伯來語(
heb
)。
- 預處理方式:採用歸一化(normalization)和 SentencePiece(
spm32k
)進行預處理。
📦 安裝指南
暫未提供安裝步驟,若有相關需求請關注後續更新。
📚 詳細文檔
項目基本信息
- 源語言組:阿拉伯語(Arabic)
- 目標語言組:希伯來語(Hebrew)
- OPUS 說明文檔:[ara - heb](https://github.com/Helsinki - NLP/Tatoeba - Challenge/tree/master/models/ara - heb/README.md)
模型信息
- 模型類型:transformer
- 源語言:
apc
、apc_Latn
、ara
、arq
、arz
- 目標語言:
heb
- 預處理:歸一化 + SentencePiece(
spm32k
,spm32k
)
- 原始權重下載:[opus - 2020 - 07 - 03.zip](https://object.pouta.csc.fi/Tatoeba - MT - models/ara - heb/opus - 2020 - 07 - 03.zip)
- 測試集翻譯:[opus - 2020 - 07 - 03.test.txt](https://object.pouta.csc.fi/Tatoeba - MT - models/ara - heb/opus - 2020 - 07 - 03.test.txt)
- 測試集分數:[opus - 2020 - 07 - 03.eval.txt](https://object.pouta.csc.fi/Tatoeba - MT - models/ara - heb/opus - 2020 - 07 - 03.eval.txt)
基準測試
測試集 |
BLEU |
chr - F |
Tatoeba - test.ara.heb |
40.4 |
0.605 |
系統信息
屬性 |
詳情 |
hf 名稱 |
ara - heb |
源語言 |
ara |
目標語言 |
heb |
OPUS 說明文檔鏈接 |
[https://github.com/Helsinki - NLP/Tatoeba - Challenge/tree/master/models/ara - heb/README.md](https://github.com/Helsinki - NLP/Tatoeba - Challenge/tree/master/models/ara - heb/README.md) |
原始倉庫 |
Tatoeba - Challenge |
標籤 |
['translation'] |
語言 |
['ar', 'he'] |
源語言成分 |
{'apc', 'ara', 'arq_Latn', 'arq', 'afb', 'ara_Latn', 'apc_Latn', 'arz'} |
目標語言成分 |
{'heb'} |
源語言多語言性 |
False |
目標語言多語言性 |
False |
預處理 |
歸一化 + SentencePiece(spm32k ,spm32k ) |
模型鏈接 |
[https://object.pouta.csc.fi/Tatoeba - MT - models/ara - heb/opus - 2020 - 07 - 03.zip](https://object.pouta.csc.fi/Tatoeba - MT - models/ara - heb/opus - 2020 - 07 - 03.zip) |
測試集鏈接 |
[https://object.pouta.csc.fi/Tatoeba - MT - models/ara - heb/opus - 2020 - 07 - 03.test.txt](https://object.pouta.csc.fi/Tatoeba - MT - models/ara - heb/opus - 2020 - 07 - 03.test.txt) |
源語言三字母代碼 |
ara |
目標語言三字母代碼 |
heb |
短語言對 |
ar - he |
chrF2 分數 |
0.605 |
BLEU 分數 |
40.4 |
簡潔懲罰 |
1.0 |
參考長度 |
6801.0 |
源語言名稱 |
阿拉伯語 |
目標語言名稱 |
希伯來語 |
訓練日期 |
2020 - 07 - 03 |
源語言兩字母代碼 |
ar |
目標語言兩字母代碼 |
he |
是否優先舊版本 |
False |
長語言對 |
ara - heb |
赫爾辛基代碼提交哈希 |
480fcbe0ee1bf4774bcbe6226ad9f58e63f6c535 |
transformers 代碼提交哈希 |
2207e5d8cb224e954a7cba69fa4ac2309e9ff30b |
移植機器 |
brutasse |
移植時間 |
2020 - 08 - 21 - 14:41 |
📄 許可證
本項目採用 Apache - 2.0 許可證。