opus - mt - inc - enオープンソース翻訳モデル - 複数のインド語族言語から英語への無料翻訳を実現

ホーム

Opus Mt Inc En

Helsinki-NLPによって開発

これは複数のインド語族言語から英語への翻訳をサポートするTransformerモデルで、Helsinki-NLPチームによって開発されました。

機械翻訳

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #多インド語族サポート #低リソース言語最適化 #ニュース分野適応

ダウンロード数 52

リリース時間 : 3/2/2022

モデル概要

このモデルはインド語族の複数言語から英語への機械翻訳タスクに特化しており、ベンガル語、ヒンディー語、ウルドゥー語など19のインド語族言語をサポートしています。

モデル特徴

多言語サポート

19のインド語族言語から英語への翻訳をサポート

標準化前処理

標準化+SentencePieceトークン化(spm32k)の前処理方式を採用

公開ベンチマークテスト

複数のテストセットにおけるBLEUとchr-Fスコアを提供

モデル能力

テキスト翻訳

多言語処理

使用事例

異言語間コミュニケーション

インド語族ドキュメント翻訳

インド語族言語のドキュメントを英語に翻訳

ベンガル語-英語翻訳で44.7 BLEUスコアを達成

多言語コンテンツローカライゼーション

英語ユーザーがインド語族コンテンツを理解するのを支援

ヒンディー語-英語翻訳で38.6 BLEUスコアを達成

言語研究

インド語族言語比較研究

翻訳モデルを通じて異なるインド語族言語の特徴を研究

🚀 インド諸言語 - 英語翻訳モデル

このプロジェクトは、インド諸言語を英語に翻訳するためのモデルを提供します。多様なインド諸言語に対応し、高精度な翻訳を実現します。

🚀 クイックスタート

このモデルは、インド諸言語から英語への翻訳タスクに使用できます。以下に、モデルの基本情報を示します。

言語サポート

ソース言語: bn, or, gu, mr, ur, hi, as, si, inc
ターゲット言語: en

モデル情報

モデルタイプ: transformer
前処理: normalization + SentencePiece (spm32k,spm32k)

ダウンロードリンク

元の重み: opus2m-2020-08-01.zip
テストセットの翻訳: opus2m-2020-08-01.test.txt
テストセットのスコア: opus2m-2020-08-01.eval.txt

✨ 主な機能

多様なインド諸言語を英語に翻訳することができます。
高精度な翻訳結果を提供します。

📚 ドキュメント

ベンチマーク

以下は、様々なテストセットでのモデルの評価結果です。

テストセット	BLEU	chr-F
newsdev2014-hineng.hin.eng	8.9	0.341
newsdev2019-engu-gujeng.guj.eng	8.7	0.321
newstest2014-hien-hineng.hin.eng	13.1	0.396
newstest2019-guen-gujeng.guj.eng	6.5	0.290
Tatoeba-test.asm-eng.asm.eng	18.1	0.363
Tatoeba-test.awa-eng.awa.eng	6.2	0.222
Tatoeba-test.ben-eng.ben.eng	44.7	0.595
Tatoeba-test.bho-eng.bho.eng	29.4	0.458
Tatoeba-test.guj-eng.guj.eng	19.3	0.383
Tatoeba-test.hif-eng.hif.eng	3.7	0.220
Tatoeba-test.hin-eng.hin.eng	38.6	0.564
Tatoeba-test.kok-eng.kok.eng	6.6	0.287
Tatoeba-test.lah-eng.lah.eng	16.0	0.272
Tatoeba-test.mai-eng.mai.eng	75.6	0.796
Tatoeba-test.mar-eng.mar.eng	25.9	0.497
Tatoeba-test.multi.eng	29.0	0.502
Tatoeba-test.nep-eng.nep.eng	4.5	0.198
Tatoeba-test.ori-eng.ori.eng	5.0	0.226
Tatoeba-test.pan-eng.pan.eng	17.4	0.375
Tatoeba-test.rom-eng.rom.eng	1.7	0.174
Tatoeba-test.san-eng.san.eng	5.0	0.173
Tatoeba-test.sin-eng.sin.eng	31.2	0.511
Tatoeba-test.snd-eng.snd.eng	45.7	0.670
Tatoeba-test.urd-eng.urd.eng	25.6	0.456

システム情報

属性	詳細
hf_name	inc-eng
ソース言語	inc
ターゲット言語	eng
opus_readme_url	https://github.com/Helsinki-NLP/Tatoeba-Challenge/tree/master/models/inc-eng/README.md
オリジナルリポジトリ	Tatoeba-Challenge
タグ	['translation']
言語	['bn', 'or', 'gu', 'mr', 'ur', 'hi', 'as', 'si', 'inc', 'en']
ソース構成要素	{'pnb', 'gom', 'ben', 'hif_Latn', 'ori', 'guj', 'pan_Guru', 'snd_Arab', 'npi', 'mar', 'urd', 'bho', 'hin', 'san_Deva', 'asm', 'rom', 'mai', 'awa', 'sin'}
ターゲット構成要素	{'eng'}
ソース多言語対応	True
ターゲット多言語対応	False
前処理	normalization + SentencePiece (spm32k,spm32k)
モデルのURL	https://object.pouta.csc.fi/Tatoeba-MT-models/inc-eng/opus2m-2020-08-01.zip
テストセットのURL	https://object.pouta.csc.fi/Tatoeba-MT-models/inc-eng/opus2m-2020-08-01.test.txt
ソース言語のISO 639-3コード	inc
ターゲット言語のISO 639-3コード	eng
短い言語ペア	inc-en
chrF2スコア	0.502
BLEU	29.0
簡潔ペナルティ	1.0
参照長	64706.0
ソース言語名	インド諸言語
ターゲット言語名	英語
学習日	2020-08-01
ソース言語のISO 639-2コード	inc
ターゲット言語のISO 639-2コード	en
古いバージョンを優先	False
長い言語ペア	inc-eng
HelsinkiのGit SHA	480fcbe0ee1bf4774bcbe6226ad9f58e63f6c535
TransformersのGit SHA	2207e5d8cb224e954a7cba69fa4ac2309e9ff30b
移植先マシン	brutasse
移植時間	2020-08-21-14:41