🚀 英文 - 班圖語翻譯模型
本項目是一個英文到班圖語的翻譯模型,可實現英文到多種班圖語的翻譯。它採用了Transformer架構,經過特定的預處理,在多個測試集上有不同的表現。
✨ 主要特性
- 多語言支持:支持將英文翻譯成多種班圖語,包括基尼亞盧旺達語(kin)、林加拉語(lin)、盧幹達語(lug)等。
- 特定預處理:使用了歸一化和SentencePiece(spm32k,spm32k)進行預處理。
- 語言令牌要求:句子開頭需要使用
>>id<<
形式的語言令牌(id為有效的目標語言ID)。
📦 安裝指南
文檔未提及安裝步驟,如需使用該模型,可參考以下信息進行嘗試:
可從 opus-2020-07-26.zip 下載原始權重。
📚 詳細文檔
英文 - 班圖語翻譯詳情
系統信息
屬性 |
詳情 |
hf名稱 |
eng-bnt |
源語言 |
eng |
目標語言 |
bnt |
OPUS說明文檔鏈接 |
https://github.com/Helsinki-NLP/Tatoeba-Challenge/tree/master/models/eng-bnt/README.md |
原始倉庫 |
Tatoeba-Challenge |
標籤 |
['翻譯'] |
支持語言 |
['en', 'sn', 'zu', 'rw', 'lg', 'ts', 'ln', 'ny', 'xh', 'rn', 'bnt'] |
源語言組成 |
{'eng'} |
目標語言組成 |
{'sna', 'zul', 'kin', 'lug', 'tso', 'lin', 'nya', 'xho', 'swh', 'run', 'toi_Latn', 'umb'} |
源語言多語言支持 |
否 |
目標語言多語言支持 |
是 |
預處理 |
歸一化 + SentencePiece(spm32k,spm32k) |
模型鏈接 |
https://object.pouta.csc.fi/Tatoeba-MT-models/eng-bnt/opus-2020-07-26.zip |
測試集鏈接 |
https://object.pouta.csc.fi/Tatoeba-MT-models/eng-bnt/opus-2020-07-26.test.txt |
源語言ISO 639-3代碼 |
eng |
目標語言ISO 639-3代碼 |
bnt |
短語言對 |
en-bnt |
chrF2分數 |
0.449 |
BLEU分數 |
12.1 |
簡潔懲罰 |
1.0 |
參考長度 |
9989.0 |
源語言名稱 |
英語 |
目標語言名稱 |
班圖語 |
訓練日期 |
2020-07-26 |
源語言ISO 639-2代碼 |
en |
目標語言ISO 639-2代碼 |
bnt |
是否優先舊版本 |
否 |
長語言對 |
eng-bnt |
赫爾辛基倉庫提交哈希 |
480fcbe0ee1bf4774bcbe6226ad9f58e63f6c535 |
Transformers倉庫提交哈希 |
2207e5d8cb224e954a7cba69fa4ac2309e9ff30b |
移植機器 |
brutasse |
移植時間 |
2020-08-21-14:41 |
📊 基準測試
測試集 |
BLEU分數 |
chr-F分數 |
Tatoeba-test.eng-kin.eng.kin |
12.5 |
0.519 |
Tatoeba-test.eng-lin.eng.lin |
1.1 |
0.277 |
Tatoeba-test.eng-lug.eng.lug |
4.8 |
0.415 |
Tatoeba-test.eng.multi |
12.1 |
0.449 |
Tatoeba-test.eng-nya.eng.nya |
22.1 |
0.616 |
Tatoeba-test.eng-run.eng.run |
13.2 |
0.492 |
Tatoeba-test.eng-sna.eng.sna |
32.1 |
0.669 |
Tatoeba-test.eng-swa.eng.swa |
1.7 |
0.180 |
Tatoeba-test.eng-toi.eng.toi |
10.7 |
0.266 |
Tatoeba-test.eng-tso.eng.tso |
26.9 |
0.631 |
Tatoeba-test.eng-umb.eng.umb |
5.2 |
0.295 |
Tatoeba-test.eng-xho.eng.xho |
22.6 |
0.615 |
Tatoeba-test.eng-zul.eng.zul |
41.1 |
0.769 |
📄 許可證
本項目採用Apache 2.0許可證。