🚀 eng - sit 翻譯模型
本項目是一個用於將英語(English)翻譯成漢藏語系(Sino - Tibetan languages)多種語言的翻譯模型,為跨語言交流提供了強大的支持。
🚀 快速開始
你可以通過以下鏈接下載模型的原始權重、測試集翻譯和測試集分數:
✨ 主要特性
- 源語言組:英語(English)
- 目標語言組:漢藏語系(Sino - Tibetan languages)
- OPUS 說明文檔:eng - sit
- 模型類型:Transformer
- 源語言:eng
- 目標語言:bod、brx、brx_Latn、cjy_Hans、cjy_Hant、cmn、cmn_Hans、cmn_Hant、gan、lzh、lzh_Hans、mya、nan、wuu、yue、yue_Hans、yue_Hant、zho、zho_Hans、zho_Hant
- 預處理:歸一化 + SentencePiece (spm32k, spm32k)
- 輸入要求:句子開頭需要以
>>id<<
形式的語言標記(id 為有效的目標語言 ID)
📊 基準測試
測試集 |
BLEU |
chr - F |
newsdev2017 - enzh - engzho.eng.zho |
23.5 |
0.217 |
newstest2017 - enzh - engzho.eng.zho |
23.2 |
0.223 |
newstest2018 - enzh - engzho.eng.zho |
25.0 |
0.230 |
newstest2019 - enzh - engzho.eng.zho |
20.2 |
0.225 |
Tatoeba - test.eng - bod.eng.bod |
0.4 |
0.147 |
Tatoeba - test.eng - brx.eng.brx |
0.5 |
0.012 |
Tatoeba - test.eng.multi |
25.7 |
0.223 |
Tatoeba - test.eng - mya.eng.mya |
0.2 |
0.222 |
Tatoeba - test.eng - zho.eng.zho |
29.2 |
0.249 |
🔧 技術細節
系統信息
屬性 |
詳情 |
模型名稱 |
eng - sit |
源語言 |
eng |
目標語言 |
sit |
OPUS 說明文檔鏈接 |
https://github.com/Helsinki-NLP/Tatoeba-Challenge/tree/master/models/eng-sit/README.md |
原始倉庫 |
Tatoeba - Challenge |
標籤 |
['translation'] |
語言 |
['en', 'sit'] |
源語言組成 |
{'eng'} |
目標語言組成 |
set() |
源語言多語言支持 |
否 |
目標語言多語言支持 |
是 |
預處理 |
歸一化 + SentencePiece (spm32k, spm32k) |
模型鏈接 |
https://object.pouta.csc.fi/Tatoeba-MT-models/eng-sit/opus2m-2020-08-01.zip |
測試集鏈接 |
https://object.pouta.csc.fi/Tatoeba-MT-models/eng-sit/opus2m-2020-08-01.test.txt |
源語言 ISO 639 - 3 代碼 |
eng |
目標語言 ISO 639 - 3 代碼 |
sit |
短語言對 |
en - sit |
chrF2 分數 |
0.223 |
BLEU 分數 |
25.7 |
簡潔懲罰係數 |
0.907 |
參考長度 |
109538.0 |
源語言名稱 |
English |
目標語言名稱 |
Sino - Tibetan languages |
訓練日期 |
2020 - 08 - 01 |
源語言 ISO 639 - 2 代碼 |
en |
目標語言 ISO 639 - 2 代碼 |
sit |
是否優先使用舊版本 |
否 |
長語言對 |
eng - sit |
赫爾辛基代碼庫 SHA 值 |
480fcbe0ee1bf4774bcbe6226ad9f58e63f6c535 |
Transformers 代碼庫 SHA 值 |
2207e5d8cb224e954a7cba69fa4ac2309e9ff30b |
移植機器 |
brutasse |
移植時間 |
2020 - 08 - 21 - 14:41 |
📄 許可證
本項目採用 Apache 2.0 許可證。