🚀 eng-iir 翻訳モデル
このプロジェクトは、英語(English)からインド・イラン語派の言語への翻訳を行うためのモデルを提供します。Transformerモデルを用いており、特定の前処理を施した上で高精度な翻訳を実現します。
🚀 クイックスタート
このモデルを使用するには、以下の手順に従ってください。
- モデルの重みをダウンロードします。opus2m-2020-08-01.zip
- テストセットの翻訳結果を確認するには、opus2m-2020-08-01.test.txt を参照してください。
- テストセットのスコアを確認するには、opus2m-2020-08-01.eval.txt を参照してください。
✨ 主な機能
- 多言語対応:英語から複数のインド・イラン語派の言語への翻訳が可能です。
- 高精度:特定の前処理を施すことで、高精度な翻訳結果を得ることができます。
📦 インストール
モデルの重みをダウンロードするには、以下のURLからダウンロードしてください。
opus2m-2020-08-01.zip
📚 ドキュメント
モデル情報
属性 |
详情 |
モデルタイプ |
Transformer |
前処理 |
正規化 + SentencePiece (spm32k,spm32k) |
ソース言語 |
eng |
ターゲット言語 |
asm, awa, ben, bho, gom, guj, hif_Latn, hin, jdt_Cyrl, kur_Arab, kur_Latn, mai, mar, npi, ori, oss, pan_Guru, pes, pes_Latn, pes_Thaa, pnb, pus, rom, san_Deva, sin, snd_Arab, tgk_Cyrl, tly_Latn, urd, zza |
オリジナルの重みのダウンロード |
opus2m-2020-08-01.zip |
テストセットの翻訳 |
opus2m-2020-08-01.test.txt |
テストセットのスコア |
opus2m-2020-08-01.eval.txt |
ベンチマーク
テストセット |
BLEU |
chr-F |
newsdev2014-enghin.eng.hin |
6.7 |
0.326 |
newsdev2019-engu-engguj.eng.guj |
6.0 |
0.283 |
newstest2014-hien-enghin.eng.hin |
10.4 |
0.353 |
newstest2019-engu-engguj.eng.guj |
6.6 |
0.282 |
Tatoeba-test.eng-asm.eng.asm |
2.7 |
0.249 |
Tatoeba-test.eng-awa.eng.awa |
0.4 |
0.122 |
Tatoeba-test.eng-ben.eng.ben |
15.3 |
0.459 |
Tatoeba-test.eng-bho.eng.bho |
3.7 |
0.161 |
Tatoeba-test.eng-fas.eng.fas |
3.4 |
0.227 |
Tatoeba-test.eng-guj.eng.guj |
18.5 |
0.365 |
Tatoeba-test.eng-hif.eng.hif |
1.0 |
0.064 |
Tatoeba-test.eng-hin.eng.hin |
17.0 |
0.461 |
Tatoeba-test.eng-jdt.eng.jdt |
3.9 |
0.122 |
Tatoeba-test.eng-kok.eng.kok |
5.5 |
0.059 |
Tatoeba-test.eng-kur.eng.kur |
4.0 |
0.125 |
Tatoeba-test.eng-lah.eng.lah |
0.3 |
0.008 |
Tatoeba-test.eng-mai.eng.mai |
9.3 |
0.445 |
Tatoeba-test.eng-mar.eng.mar |
20.7 |
0.473 |
Tatoeba-test.eng.multi |
13.7 |
0.392 |
Tatoeba-test.eng-nep.eng.nep |
0.6 |
0.060 |
Tatoeba-test.eng-ori.eng.ori |
2.4 |
0.193 |
Tatoeba-test.eng-oss.eng.oss |
2.1 |
0.174 |
Tatoeba-test.eng-pan.eng.pan |
9.7 |
0.355 |
Tatoeba-test.eng-pus.eng.pus |
1.0 |
0.126 |
Tatoeba-test.eng-rom.eng.rom |
1.3 |
0.230 |
Tatoeba-test.eng-san.eng.san |
1.3 |
0.101 |
Tatoeba-test.eng-sin.eng.sin |
11.7 |
0.384 |
Tatoeba-test.eng-snd.eng.snd |
2.8 |
0.180 |
Tatoeba-test.eng-tgk.eng.tgk |
8.1 |
0.353 |
Tatoeba-test.eng-tly.eng.tly |
0.5 |
0.015 |
Tatoeba-test.eng-urd.eng.urd |
12.3 |
0.409 |
Tatoeba-test.eng-zza.eng.zza |
0.5 |
0.025 |
システム情報
- hf_name: eng-iir
- ソース言語: eng
- ターゲット言語: iir
- OPUSのREADMEのURL: https://github.com/Helsinki-NLP/Tatoeba-Challenge/tree/master/models/eng-iir/README.md
- オリジナルのリポジトリ: Tatoeba-Challenge
- タグ: ['translation']
- 言語: ['en', 'bn', 'or', 'gu', 'mr', 'ur', 'hi', 'ps', 'os', 'as', 'si', 'iir']
- ソース言語の構成要素: {'eng'}
- ターゲット言語の構成要素: {'pnb', 'gom', 'ben', 'hif_Latn', 'ori', 'guj', 'pan_Guru', 'snd_Arab', 'npi', 'mar', 'urd', 'pes', 'bho', 'kur_Arab', 'tgk_Cyrl', 'hin', 'kur_Latn', 'pes_Thaa', 'pus', 'san_Deva', 'oss', 'tly_Latn', 'jdt_Cyrl', 'asm', 'zza', 'rom', 'mai', 'pes_Latn', 'awa', 'sin'}
- ソース言語のマルチリンガル: False
- ターゲット言語のマルチリンガル: True
- 前処理: 正規化 + SentencePiece (spm32k,spm32k)
- モデルのURL: https://object.pouta.csc.fi/Tatoeba-MT-models/eng-iir/opus2m-2020-08-01.zip
- テストセットのURL: https://object.pouta.csc.fi/Tatoeba-MT-models/eng-iir/opus2m-2020-08-01.test.txt
- ソース言語のISO 639-3コード: eng
- ターゲット言語のISO 639-3コード: iir
- 短い言語ペア: en-iir
- chrF2スコア: 0.392
- BLEUスコア: 13.7
- 簡潔性ペナルティ: 1.0
- 参照文の長さ: 63351.0
- ソース言語の名前: English
- ターゲット言語の名前: Indo-Iranian languages
- 学習日: 2020-08-01
- ソース言語のISO 639-2コード: en
- ターゲット言語のISO 639-2コード: iir
- 古いモデルを優先: False
- 長い言語ペア: eng-iir
- HelsinkiのGit SHA: 480fcbe0ee1bf4774bcbe6226ad9f58e63f6c535
- TransformersのGit SHA: 2207e5d8cb224e954a7cba69fa4ac2309e9ff30b
- 移植先のマシン: brutasse
- 移植日時: 2020-08-21-14:41
📄 ライセンス
このプロジェクトは、Apache-2.0ライセンスの下で公開されています。