🚀 英文到印度語系翻譯模型
本項目是一個英文到印度語系的翻譯模型,可將英文翻譯成多種印度語系語言,為跨語言交流提供了有力支持。
🚀 快速開始
本模型主要用於將英文翻譯成印度語系的多種語言。以下是該模型的相關信息:
- 支持語言:英語(en)、孟加拉語(bn)、奧里亞語(or)、古吉拉特語(gu)、馬拉地語(mr)、烏爾都語(ur)、印地語(hi)、阿薩姆語(as)、僧伽羅語(si)等印度語系語言(inc)。
- 模型類型:Transformer
✨ 主要特性
- 多語言支持:能夠處理英文到多種印度語系語言的翻譯任務。
- 預處理方式:採用歸一化和 SentencePiece(spm32k,spm32k)進行預處理。
- 語言標識:需要以
>>id<<
(id 為有效的目標語言 ID)形式的句子初始語言標記。
📦 安裝指南
暫未提供安裝步驟相關內容。
💻 使用示例
暫未提供代碼示例。
📚 詳細文檔
模型信息
屬性 |
詳情 |
模型類型 |
Transformer |
源語言 |
英語(eng) |
目標語言 |
阿薩姆語(asm)、阿瓦德語(awa)、孟加拉語(ben)、博傑普爾語(bho)、果阿語(gom)、古吉拉特語(guj)、拉丁轉寫印地語(hif_Latn)、印地語(hin)、邁蒂利語(mai)、馬拉地語(mar)、尼泊爾語(npi)、奧里亞語(ori)、旁遮普語(pan_Guru)、西部旁遮普語(pnb)、羅姆語(rom)、梵語(san_Deva)、僧伽羅語(sin)、信德語(snd_Arab)、烏爾都語(urd) |
預處理 |
歸一化 + SentencePiece(spm32k,spm32k) |
語言標記 |
需要以 >>id<< (id 為有效的目標語言 ID)形式的句子初始語言標記 |
原始權重下載 |
opus2m-2020-08-01.zip |
測試集翻譯 |
opus2m-2020-08-01.test.txt |
測試集分數 |
opus2m-2020-08-01.eval.txt |
基準測試
測試集 |
BLEU |
chr-F |
newsdev2014-enghin.eng.hin |
8.2 |
0.342 |
newsdev2019-engu-engguj.eng.guj |
6.5 |
0.293 |
newstest2014-hien-enghin.eng.hin |
11.4 |
0.364 |
newstest2019-engu-engguj.eng.guj |
7.2 |
0.296 |
Tatoeba-test.eng-asm.eng.asm |
2.7 |
0.277 |
Tatoeba-test.eng-awa.eng.awa |
0.5 |
0.132 |
Tatoeba-test.eng-ben.eng.ben |
16.7 |
0.470 |
Tatoeba-test.eng-bho.eng.bho |
4.3 |
0.227 |
Tatoeba-test.eng-guj.eng.guj |
17.5 |
0.373 |
Tatoeba-test.eng-hif.eng.hif |
0.6 |
0.028 |
Tatoeba-test.eng-hin.eng.hin |
17.7 |
0.469 |
Tatoeba-test.eng-kok.eng.kok |
1.7 |
0.000 |
Tatoeba-test.eng-lah.eng.lah |
0.3 |
0.028 |
Tatoeba-test.eng-mai.eng.mai |
15.6 |
0.429 |
Tatoeba-test.eng.mar.eng.mar |
21.3 |
0.477 |
Tatoeba-test.eng.multi |
17.3 |
0.448 |
Tatoeba-test.eng-nep.eng.nep |
0.8 |
0.081 |
Tatoeba-test.eng-ori.eng.ori |
2.2 |
0.208 |
Tatoeba-test.eng-pan.eng.pan |
8.0 |
0.347 |
Tatoeba-test.eng-rom.eng.rom |
0.4 |
0.197 |
Tatoeba-test.eng-san.eng.san |
0.5 |
0.108 |
Tatoeba-test.eng-sin.eng.sin |
9.1 |
0.364 |
Tatoeba-test.eng-snd.eng.snd |
4.4 |
0.284 |
Tatoeba-test.eng-urd.eng.urd |
13.3 |
0.423 |
系統信息
- 模型名稱:eng-inc
- 源語言:英語(eng)
- 目標語言:印度語系語言(inc)
- OPUS 文檔鏈接:eng-inc
- 原始倉庫:Tatoeba-Challenge
- 標籤:翻譯(translation)
- 訓練日期:2020 - 08 - 01
🔧 技術細節
暫未提供技術實現細節相關內容。
📄 許可證
本項目採用 Apache-2.0 許可證。