🚀 インド諸言語 - 英語翻訳モデル
このプロジェクトは、インド諸言語を英語に翻訳するためのモデルを提供します。多様なインド諸言語に対応し、高精度な翻訳を実現します。
🚀 クイックスタート
このモデルは、インド諸言語から英語への翻訳タスクに使用できます。以下に、モデルの基本情報を示します。
言語サポート
- ソース言語: bn, or, gu, mr, ur, hi, as, si, inc
- ターゲット言語: en
モデル情報
- モデルタイプ: transformer
- 前処理: normalization + SentencePiece (spm32k,spm32k)
ダウンロードリンク
✨ 主な機能
- 多様なインド諸言語を英語に翻訳することができます。
- 高精度な翻訳結果を提供します。
📚 ドキュメント
ベンチマーク
以下は、様々なテストセットでのモデルの評価結果です。
テストセット |
BLEU |
chr-F |
newsdev2014-hineng.hin.eng |
8.9 |
0.341 |
newsdev2019-engu-gujeng.guj.eng |
8.7 |
0.321 |
newstest2014-hien-hineng.hin.eng |
13.1 |
0.396 |
newstest2019-guen-gujeng.guj.eng |
6.5 |
0.290 |
Tatoeba-test.asm-eng.asm.eng |
18.1 |
0.363 |
Tatoeba-test.awa-eng.awa.eng |
6.2 |
0.222 |
Tatoeba-test.ben-eng.ben.eng |
44.7 |
0.595 |
Tatoeba-test.bho-eng.bho.eng |
29.4 |
0.458 |
Tatoeba-test.guj-eng.guj.eng |
19.3 |
0.383 |
Tatoeba-test.hif-eng.hif.eng |
3.7 |
0.220 |
Tatoeba-test.hin-eng.hin.eng |
38.6 |
0.564 |
Tatoeba-test.kok-eng.kok.eng |
6.6 |
0.287 |
Tatoeba-test.lah-eng.lah.eng |
16.0 |
0.272 |
Tatoeba-test.mai-eng.mai.eng |
75.6 |
0.796 |
Tatoeba-test.mar-eng.mar.eng |
25.9 |
0.497 |
Tatoeba-test.multi.eng |
29.0 |
0.502 |
Tatoeba-test.nep-eng.nep.eng |
4.5 |
0.198 |
Tatoeba-test.ori-eng.ori.eng |
5.0 |
0.226 |
Tatoeba-test.pan-eng.pan.eng |
17.4 |
0.375 |
Tatoeba-test.rom-eng.rom.eng |
1.7 |
0.174 |
Tatoeba-test.san-eng.san.eng |
5.0 |
0.173 |
Tatoeba-test.sin-eng.sin.eng |
31.2 |
0.511 |
Tatoeba-test.snd-eng.snd.eng |
45.7 |
0.670 |
Tatoeba-test.urd-eng.urd.eng |
25.6 |
0.456 |
システム情報
属性 |
詳細 |
hf_name |
inc-eng |
ソース言語 |
inc |
ターゲット言語 |
eng |
opus_readme_url |
https://github.com/Helsinki-NLP/Tatoeba-Challenge/tree/master/models/inc-eng/README.md |
オリジナルリポジトリ |
Tatoeba-Challenge |
タグ |
['translation'] |
言語 |
['bn', 'or', 'gu', 'mr', 'ur', 'hi', 'as', 'si', 'inc', 'en'] |
ソース構成要素 |
{'pnb', 'gom', 'ben', 'hif_Latn', 'ori', 'guj', 'pan_Guru', 'snd_Arab', 'npi', 'mar', 'urd', 'bho', 'hin', 'san_Deva', 'asm', 'rom', 'mai', 'awa', 'sin'} |
ターゲット構成要素 |
{'eng'} |
ソース多言語対応 |
True |
ターゲット多言語対応 |
False |
前処理 |
normalization + SentencePiece (spm32k,spm32k) |
モデルのURL |
https://object.pouta.csc.fi/Tatoeba-MT-models/inc-eng/opus2m-2020-08-01.zip |
テストセットのURL |
https://object.pouta.csc.fi/Tatoeba-MT-models/inc-eng/opus2m-2020-08-01.test.txt |
ソース言語のISO 639-3コード |
inc |
ターゲット言語のISO 639-3コード |
eng |
短い言語ペア |
inc-en |
chrF2スコア |
0.502 |
BLEU |
29.0 |
簡潔ペナルティ |
1.0 |
参照長 |
64706.0 |
ソース言語名 |
インド諸言語 |
ターゲット言語名 |
英語 |
学習日 |
2020-08-01 |
ソース言語のISO 639-2コード |
inc |
ターゲット言語のISO 639-2コード |
en |
古いバージョンを優先 |
False |
長い言語ペア |
inc-eng |
HelsinkiのGit SHA |
480fcbe0ee1bf4774bcbe6226ad9f58e63f6c535 |
TransformersのGit SHA |
2207e5d8cb224e954a7cba69fa4ac2309e9ff30b |
移植先マシン |
brutasse |
移植時間 |
2020-08-21-14:41 |
📄 ライセンス
このプロジェクトは、Apache-2.0ライセンスの下で提供されています。