🚀 英文到北日耳曼語族翻譯模型
本項目是一個英文到北日耳曼語族的翻譯模型,採用Transformer架構,提供了模型的相關信息、基準測試結果以及系統信息等內容。
🚀 快速開始
本模型用於英文到北日耳曼語族語言的翻譯,你可以通過以下鏈接下載模型原始權重、測試集翻譯結果和測試集得分:
✨ 主要特性
- 多語言支持:支持英文到多種北日耳曼語族語言的翻譯,包括丹麥語、法羅語、冰島語等。
- 預處理方式:採用歸一化和SentencePiece(spm32k,spm32k)進行預處理。
- 語言標記:需要以
>>id<<
(id 為有效的目標語言 ID)形式的句子初始語言標記。
📚 詳細文檔
翻譯任務信息
屬性 |
詳情 |
源語言組 |
英語 |
目標語言組 |
北日耳曼語族 |
OPUS 說明文檔 |
eng-gmq |
模型類型 |
Transformer |
源語言 |
英語(eng) |
目標語言 |
丹麥語(dan)、法羅語(fao)、冰島語(isl)、新挪威語(nno)、書面挪威語(nob)、希伯來語書面挪威語(nob_Hebr)、古諾爾斯語(non_Latn)、瑞典語(swe) |
預處理 |
歸一化 + SentencePiece(spm32k,spm32k) |
基準測試
測試集 |
BLEU 得分 |
chr-F 得分 |
Tatoeba-test.eng-dan.eng.dan |
57.7 |
0.724 |
Tatoeba-test.eng-fao.eng.fao |
9.2 |
0.322 |
Tatoeba-test.eng-isl.eng.isl |
23.8 |
0.506 |
Tatoeba-test.eng.multi |
52.8 |
0.688 |
Tatoeba-test.eng-non.eng.non |
0.7 |
0.196 |
Tatoeba-test.eng-nor.eng.nor |
50.3 |
0.678 |
Tatoeba-test.eng-swe.eng.swe |
57.8 |
0.717 |
系統信息
屬性 |
詳情 |
Hugging Face 名稱 |
eng-gmq |
源語言 |
eng |
目標語言 |
gmq |
OPUS 說明文檔鏈接 |
https://github.com/Helsinki-NLP/Tatoeba-Challenge/tree/master/models/eng-gmq/README.md |
原始倉庫 |
Tatoeba-Challenge |
標籤 |
['翻譯'] |
支持語言 |
['en', 'da', 'nb', 'sv', 'is', 'nn', 'fo', 'gmq'] |
源語言成分 |
{'eng'} |
目標語言成分 |
{'dan', 'nob', 'nob_Hebr', 'swe', 'isl', 'nno', 'non_Latn', 'fao'} |
源語言多語言性 |
否 |
目標語言多語言性 |
是 |
預處理 |
歸一化 + SentencePiece(spm32k,spm32k) |
模型鏈接 |
https://object.pouta.csc.fi/Tatoeba-MT-models/eng-gmq/opus2m-2020-08-01.zip |
測試集鏈接 |
https://object.pouta.csc.fi/Tatoeba-MT-models/eng-gmq/opus2m-2020-08-01.test.txt |
源語言 ISO 639-3 代碼 |
eng |
目標語言 ISO 639-3 代碼 |
gmq |
短語言對 |
en-gmq |
chrF2 得分 |
0.688 |
BLEU 得分 |
52.8 |
簡潔懲罰係數 |
0.973 |
參考長度 |
71881.0 |
源語言名稱 |
英語 |
目標語言名稱 |
北日耳曼語族 |
訓練日期 |
2020-08-01 |
源語言 ISO 639-2 代碼 |
en |
目標語言 ISO 639-2 代碼 |
gmq |
是否優先舊版本 |
否 |
長語言對 |
eng-gmq |
Helsinki 代碼庫 SHA |
480fcbe0ee1bf4774bcbe6226ad9f58e63f6c535 |
Transformers 代碼庫 SHA |
2207e5d8cb224e954a7cba69fa4ac2309e9ff30b |
移植機器 |
brutasse |
移植時間 |
2020-08-21-14:41 |
📄 許可證
本項目採用 Apache 2.0 許可證。