🚀 英文到南斯拉夫語系翻譯模型
本項目是一個英文到南斯拉夫語系的翻譯模型,支持多種南斯拉夫語的翻譯,為跨語言交流提供了有力的工具。
🚀 快速開始
你可以通過以下鏈接下載模型的原始權重、測試集翻譯和測試集得分:
✨ 主要特性
- 多語言支持:源語言為英語,目標語言涵蓋多種南斯拉夫語,包括波斯尼亞語(拉丁字母)、保加利亞語(西裡爾字母和拉丁字母)、克羅地亞語、馬其頓語、斯洛文尼亞語、塞爾維亞語(西裡爾字母和拉丁字母)。
- 模型類型:採用Transformer模型。
- 預處理:進行歸一化處理,並使用SentencePiece(spm32k,spm32k)。
- 語言標記:句子開頭需要使用
>>id<<
形式的語言標記(id為有效的目標語言ID)。
📚 詳細文檔
eng - zls 翻譯詳情
屬性 |
詳情 |
模型類型 |
Transformer |
源語言 |
英語(eng) |
目標語言 |
波斯尼亞語(拉丁字母)(bos_Latn)、保加利亞語(西裡爾字母)(bul)、保加利亞語(拉丁字母)(bul_Latn)、克羅地亞語(hrv)、馬其頓語(mkd)、斯洛文尼亞語(slv)、塞爾維亞語(西裡爾字母)(srp_Cyrl)、塞爾維亞語(拉丁字母)(srp_Latn) |
預處理 |
歸一化 + SentencePiece(spm32k,spm32k) |
語言標記要求 |
句子開頭需要使用 >>id<< 形式的語言標記(id為有效的目標語言ID) |
基準測試
測試集 |
BLEU 得分 |
chr - F 得分 |
Tatoeba - test.eng - bul.eng.bul |
47.6 |
0.657 |
Tatoeba - test.eng - hbs.eng.hbs |
40.7 |
0.619 |
Tatoeba - test.eng - mkd.eng.mkd |
45.2 |
0.642 |
Tatoeba - test.eng.multi |
42.7 |
0.622 |
Tatoeba - test.eng - slv.eng.slv |
17.9 |
0.351 |
系統信息
- HF 名稱:eng - zls
- 源語言:英語(eng)
- 目標語言:南斯拉夫語系(zls)
- OPUS 說明文檔鏈接:https://github.com/Helsinki-NLP/Tatoeba-Challenge/tree/master/models/eng-zls/README.md
- 原始倉庫:Tatoeba - Challenge
- 標籤:['translation']
- 支持語言:['en', 'hr', 'mk', 'bg', 'sl', 'zls']
- 源語言組成:{'eng'}
- 目標語言組成:{'hrv', 'mkd', 'srp_Latn', 'srp_Cyrl', 'bul_Latn', 'bul', 'bos_Latn', 'slv'}
- 源語言多語言性:否
- 目標語言多語言性:是
- 預處理:歸一化 + SentencePiece(spm32k,spm32k)
- 模型鏈接:https://object.pouta.csc.fi/Tatoeba-MT-models/eng-zls/opus2m-2020-08-02.zip
- 測試集鏈接:https://object.pouta.csc.fi/Tatoeba-MT-models/eng-zls/opus2m-2020-08-02.test.txt
- 源語言 ISO 639 - 3 代碼:eng
- 目標語言 ISO 639 - 3 代碼:zls
- 短語言對:en - zls
- chrF2 得分:0.622
- BLEU 得分:42.7
- 簡潔懲罰:0.9690000000000001
- 參考長度:64788.0
- 源語言名稱:英語
- 目標語言名稱:南斯拉夫語系
- 訓練日期:2020 - 08 - 02
- 源語言 ISO 639 - 2 代碼:en
- 目標語言 ISO 639 - 2 代碼:zls
- 是否偏好舊版本:否
- 長語言對:eng - zls
- 赫爾辛基倉庫 Git SHA:480fcbe0ee1bf4774bcbe6226ad9f58e63f6c535
- Transformers 倉庫 Git SHA:2207e5d8cb224e954a7cba69fa4ac2309e9ff30b
- 移植機器:brutasse
- 移植時間:2020 - 08 - 21 - 14:41
📄 許可證
本項目採用 Apache - 2.0 許可證。