🚀 印度語系到英語翻譯模型
本項目是一個用於將印度語系語言翻譯成英語的模型,提供了模型的詳細信息、基準測試結果以及系統相關信息,為語言翻譯領域提供了有力的支持。
✨ 主要特性
- 多語言支持:支持多種印度語系語言到英語的翻譯,包括阿薩姆語、孟加拉語、古吉拉特語等。
- 模型類型:採用Transformer模型進行翻譯任務。
- 預處理:使用歸一化和SentencePiece(spm32k,spm32k)進行預處理。
📦 相關資源
📚 基準測試
測試集 |
BLEU |
chr-F |
newsdev2014-hineng.hin.eng |
8.9 |
0.341 |
newsdev2019-engu-gujeng.guj.eng |
8.7 |
0.321 |
newstest2014-hien-hineng.hin.eng |
13.1 |
0.396 |
newstest2019-guen-gujeng.guj.eng |
6.5 |
0.290 |
Tatoeba-test.asm-eng.asm.eng |
18.1 |
0.363 |
Tatoeba-test.awa-eng.awa.eng |
6.2 |
0.222 |
Tatoeba-test.ben-eng.ben.eng |
44.7 |
0.595 |
Tatoeba-test.bho-eng.bho.eng |
29.4 |
0.458 |
Tatoeba-test.guj-eng.guj.eng |
19.3 |
0.383 |
Tatoeba-test.hif-eng.hif.eng |
3.7 |
0.220 |
Tatoeba-test.hin-eng.hin.eng |
38.6 |
0.564 |
Tatoeba-test.kok-eng.kok.eng |
6.6 |
0.287 |
Tatoeba-test.lah-eng.lah.eng |
16.0 |
0.272 |
Tatoeba-test.mai-eng.mai.eng |
75.6 |
0.796 |
Tatoeba-test.mar-eng.mar.eng |
25.9 |
0.497 |
Tatoeba-test.multi.eng |
29.0 |
0.502 |
Tatoeba-test.nep-eng.nep.eng |
4.5 |
0.198 |
Tatoeba-test.ori-eng.ori.eng |
5.0 |
0.226 |
Tatoeba-test.pan-eng.pan.eng |
17.4 |
0.375 |
Tatoeba-test.rom-eng.rom.eng |
1.7 |
0.174 |
Tatoeba-test.san-eng.san.eng |
5.0 |
0.173 |
Tatoeba-test.sin-eng.sin.eng |
31.2 |
0.511 |
Tatoeba-test.snd-eng.snd.eng |
45.7 |
0.670 |
Tatoeba-test.urd-eng.urd.eng |
25.6 |
0.456 |
🔧 系統信息
- HF名稱:inc-eng
- 源語言:inc
- 目標語言:eng
- OPUS說明文檔URL:https://github.com/Helsinki-NLP/Tatoeba-Challenge/tree/master/models/inc-eng/README.md
- 原始倉庫:Tatoeba-Challenge
- 標籤:['translation']
- 支持語言:['bn', 'or', 'gu', 'mr', 'ur', 'hi', 'as', 'si', 'inc', 'en']
- 源語言成分:{'pnb', 'gom', 'ben', 'hif_Latn', 'ori', 'guj', 'pan_Guru', 'snd_Arab', 'npi', 'mar', 'urd', 'bho', 'hin', 'san_Deva', 'asm', 'rom', 'mai', 'awa', 'sin'}
- 目標語言成分:{'eng'}
- 源語言多語言支持:True
- 目標語言多語言支持:False
- 預處理:歸一化 + SentencePiece(spm32k,spm32k)
- 模型URL:https://object.pouta.csc.fi/Tatoeba-MT-models/inc-eng/opus2m-2020-08-01.zip
- 測試集URL:https://object.pouta.csc.fi/Tatoeba-MT-models/inc-eng/opus2m-2020-08-01.test.txt
- 源語言ISO 639-3代碼:inc
- 目標語言ISO 639-3代碼:eng
- 短語言對:inc-en
- chrF2評分:0.502
- BLEU評分:29.0
- 簡潔懲罰:1.0
- 參考長度:64706.0
- 源語言名稱:印度語系語言
- 目標語言名稱:英語
- 訓練日期:2020-08-01
- 源語言ISO 639-2代碼:inc
- 目標語言ISO 639-2代碼:en
- 優先舊版本:False
- 長語言對:inc-eng
- 赫爾辛基Git SHA:480fcbe0ee1bf4774bcbe6226ad9f58e63f6c535
- Transformers Git SHA:2207e5d8cb224e954a7cba69fa4ac2309e9ff30b
- 移植機器:brutasse
- 移植時間:2020-08-21-14:41
📄 許可證
本項目採用Apache-2.0許可證。