🚀 eng - fiu 英文到芬蘭 - 烏戈爾語族翻譯項目
本項目專注於英文到芬蘭 - 烏戈爾語族語言的翻譯,採用了先進的Transformer模型,為跨語言交流提供了有力支持。
🚀 快速開始
本項目提供了英文到芬蘭 - 烏戈爾語族多種語言的翻譯模型,你可以通過下載模型權重並結合相應的預處理方法來使用該模型。
✨ 主要特性
- 多語言支持:支持多種芬蘭 - 烏戈爾語族語言的翻譯,包括愛沙尼亞語(est)、芬蘭語(fin)、匈牙利語(hun)等。
- 先進模型:採用Transformer模型進行翻譯任務。
- 預處理:使用歸一化和SentencePiece(spm32k, spm32k)進行預處理。
📦 安裝指南
你可以從以下鏈接下載原始模型權重:
opus2m - 2020 - 08 - 01.zip
📚 詳細文檔
模型信息
屬性 |
詳情 |
模型類型 |
Transformer |
源語言 |
英文(eng) |
目標語言 |
愛沙尼亞語(est)、芬蘭語(fin)、富爾辛語(fkv_Latn)、匈牙利語(hun)、伊熱爾語(izh)、科米語(kpv)、卡累利阿語(krl)、利沃尼亞語(liv_Latn)、莫克沙語(mdf)、馬里語(mhr)、埃爾齊亞語(myv)、南薩米語(sma)、北薩米語(sme)、烏德穆爾特語(udm)、沃羅語(vro) |
預處理 |
歸一化 + SentencePiece(spm32k, spm32k) |
語言標記要求 |
需要以 >>id<< 形式的句子初始語言標記(id 為有效的目標語言 ID) |
測試集信息
基準測試
測試集 |
BLEU |
chr - F |
newsdev2015 - enfi - engfin.eng.fin |
18.7 |
0.522 |
newsdev2018 - enet - engest.eng.est |
19.4 |
0.521 |
newssyscomb2009 - enghun.eng.hun |
15.5 |
0.472 |
newstest2009 - enghun.eng.hun |
15.4 |
0.468 |
newstest2015 - enfi - engfin.eng.fin |
19.9 |
0.532 |
newstest2016 - enfi - engfin.eng.fin |
21.1 |
0.544 |
newstest2017 - enfi - engfin.eng.fin |
23.8 |
0.567 |
newstest2018 - enet - engest.eng.est |
20.4 |
0.532 |
newstest2018 - enfi - engfin.eng.fin |
15.6 |
0.498 |
newstest2019 - enfi - engfin.eng.fin |
20.0 |
0.520 |
newstestB2016 - enfi - engfin.eng.fin |
17.0 |
0.512 |
newstestB2017 - enfi - engfin.eng.fin |
19.7 |
0.531 |
Tatoeba - test.eng - chm.eng.chm |
0.9 |
0.115 |
Tatoeba - test.eng - est.eng.est |
49.8 |
0.689 |
Tatoeba - test.eng - fin.eng.fin |
34.7 |
0.597 |
Tatoeba - test.eng - fkv.eng.fkv |
1.3 |
0.187 |
Tatoeba - test.eng - hun.eng.hun |
35.2 |
0.589 |
Tatoeba - test.eng - izh.eng.izh |
6.0 |
0.163 |
Tatoeba - test.eng - kom.eng.kom |
3.4 |
0.012 |
Tatoeba - test.eng - krl.eng.krl |
6.4 |
0.202 |
Tatoeba - test.eng - liv.eng.liv |
1.6 |
0.102 |
Tatoeba - test.eng - mdf.eng.mdf |
3.7 |
0.008 |
Tatoeba - test.eng.multi |
35.4 |
0.590 |
Tatoeba - test.eng - myv.eng.myv |
1.4 |
0.014 |
Tatoeba - test.eng - sma.eng.sma |
2.6 |
0.097 |
Tatoeba - test.eng - sme.eng.sme |
7.3 |
0.221 |
Tatoeba - test.eng - udm.eng.udm |
1.4 |
0.079 |
系統信息
- Hugging Face 名稱:eng - fiu
- 源語言:英文(eng)
- 目標語言:芬蘭 - 烏戈爾語族(fiu)
- OPUS 文檔鏈接:https://github.com/Helsinki - NLP/Tatoeba - Challenge/tree/master/models/eng - fiu/README.md
- 原始倉庫:Tatoeba - Challenge
- 標籤:['翻譯']
- 支持語言:['en', 'se', 'fi', 'hu', 'et', 'fiu']
- 源語言組成:{'eng'}
- 目標語言組成:{'izh', 'mdf', 'vep', 'vro', 'sme', 'myv', 'fkv_Latn', 'krl', 'fin', 'hun', 'kpv', 'udm', 'liv_Latn', 'est', 'mhr', 'sma'}
- 源語言多語言性:否
- 目標語言多語言性:是
- 預處理:歸一化 + SentencePiece(spm32k, spm32k)
- 模型鏈接:https://object.pouta.csc.fi/Tatoeba - MT - models/eng - fiu/opus2m - 2020 - 08 - 01.zip
- 測試集鏈接:https://object.pouta.csc.fi/Tatoeba - MT - models/eng - fiu/opus2m - 2020 - 08 - 01.test.txt
- 源語言 ISO 639 - 3 代碼:eng
- 目標語言 ISO 639 - 3 代碼:fiu
- 短語言對:en - fiu
- chrF2 分數:0.59
- BLEU 分數:35.4
- 簡潔懲罰:0.9440000000000001
- 參考長度:59311.0
- 源語言名稱:英文
- 目標語言名稱:芬蘭 - 烏戈爾語族語言
- 訓練日期:2020 - 08 - 01
- 源語言 ISO 639 - 2 代碼:en
- 目標語言 ISO 639 - 2 代碼:fiu
- 是否偏好舊版本:否
- 長語言對:eng - fiu
- 赫爾辛基代碼庫 SHA:480fcbe0ee1bf4774bcbe6226ad9f58e63f6c535
- Transformers 代碼庫 SHA:2207e5d8cb224e954a7cba69fa4ac2309e9ff30b
- 移植機器:brutasse
- 移植時間:2020 - 08 - 21 - 14:41
📄 許可證
本項目採用 Apache 2.0 許可證。