opus-mt-en-iirオープンソース多言語翻訳モデル - 無料でデプロイ可能、英語からインド・イラン語族の言語への翻訳をサポート

ホーム

Opus Mt En Iir

Helsinki-NLPによって開発

これはTransformerアーキテクチャに基づく多言語機械翻訳モデルで、英語から複数のインド・イラン語族言語への翻訳タスクをサポートします。

機械翻訳

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #多言語インド語族翻訳 #低リソース言語サポート #SentencePiece形態素解析

ダウンロード数 135

リリース時間 : 3/2/2022

モデル概要

このモデルは、英語からインド・イラン語族言語への翻訳に特化しており、ヒンディー語、ベンガル語、ウルドゥー語などを含む複数の言語をサポートします。

モデル特徴

多言語サポート

英語から28種類のインド・イラン語族言語への翻訳をサポート

標準化前処理

標準化とSentencePiece形態素解析(spm32k)を用いてテキストの前処理を行う

目標言語識別

文頭に目標言語識別子を追加することで多言語翻訳を実現

モデル能力

英語から複数のインド・イラン語族言語への翻訳

多言語並列翻訳

標準化テキスト処理

使用事例

異言語交流

英語からヒンディー語への翻訳

英語の内容をヒンディー語に翻訳する

BLEU 17.0, chr - F 0.461

英語からベンガル語への翻訳

英語の内容をベンガル語に翻訳する

BLEU 15.3, chr - F 0.459

コンテンツローカライズ

英語からウルドゥー語へのコンテンツローカライズ

英語の内容をウルドゥー語にローカライズする

BLEU 12.3, chr - F 0.409

🚀 eng-iir 翻訳モデル

このプロジェクトは、英語（English）からインド・イラン語派の言語への翻訳を行うためのモデルを提供します。Transformerモデルを用いており、特定の前処理を施した上で高精度な翻訳を実現します。

🚀 クイックスタート

このモデルを使用するには、以下の手順に従ってください。

モデルの重みをダウンロードします。opus2m-2020-08-01.zip
テストセットの翻訳結果を確認するには、opus2m-2020-08-01.test.txt を参照してください。
テストセットのスコアを確認するには、opus2m-2020-08-01.eval.txt を参照してください。

✨ 主な機能

多言語対応：英語から複数のインド・イラン語派の言語への翻訳が可能です。
高精度：特定の前処理を施すことで、高精度な翻訳結果を得ることができます。

📦 インストール

モデルの重みをダウンロードするには、以下のURLからダウンロードしてください。 opus2m-2020-08-01.zip

📚 ドキュメント

モデル情報

属性	详情
モデルタイプ	Transformer
前処理	正規化 + SentencePiece (spm32k,spm32k)
ソース言語	eng
ターゲット言語	asm, awa, ben, bho, gom, guj, hif_Latn, hin, jdt_Cyrl, kur_Arab, kur_Latn, mai, mar, npi, ori, oss, pan_Guru, pes, pes_Latn, pes_Thaa, pnb, pus, rom, san_Deva, sin, snd_Arab, tgk_Cyrl, tly_Latn, urd, zza
オリジナルの重みのダウンロード	opus2m-2020-08-01.zip
テストセットの翻訳	opus2m-2020-08-01.test.txt
テストセットのスコア	opus2m-2020-08-01.eval.txt

ベンチマーク

テストセット	BLEU	chr-F
newsdev2014-enghin.eng.hin	6.7	0.326
newsdev2019-engu-engguj.eng.guj	6.0	0.283
newstest2014-hien-enghin.eng.hin	10.4	0.353
newstest2019-engu-engguj.eng.guj	6.6	0.282
Tatoeba-test.eng-asm.eng.asm	2.7	0.249
Tatoeba-test.eng-awa.eng.awa	0.4	0.122
Tatoeba-test.eng-ben.eng.ben	15.3	0.459
Tatoeba-test.eng-bho.eng.bho	3.7	0.161
Tatoeba-test.eng-fas.eng.fas	3.4	0.227
Tatoeba-test.eng-guj.eng.guj	18.5	0.365
Tatoeba-test.eng-hif.eng.hif	1.0	0.064
Tatoeba-test.eng-hin.eng.hin	17.0	0.461
Tatoeba-test.eng-jdt.eng.jdt	3.9	0.122
Tatoeba-test.eng-kok.eng.kok	5.5	0.059
Tatoeba-test.eng-kur.eng.kur	4.0	0.125
Tatoeba-test.eng-lah.eng.lah	0.3	0.008
Tatoeba-test.eng-mai.eng.mai	9.3	0.445
Tatoeba-test.eng-mar.eng.mar	20.7	0.473
Tatoeba-test.eng.multi	13.7	0.392
Tatoeba-test.eng-nep.eng.nep	0.6	0.060
Tatoeba-test.eng-ori.eng.ori	2.4	0.193
Tatoeba-test.eng-oss.eng.oss	2.1	0.174
Tatoeba-test.eng-pan.eng.pan	9.7	0.355
Tatoeba-test.eng-pus.eng.pus	1.0	0.126
Tatoeba-test.eng-rom.eng.rom	1.3	0.230
Tatoeba-test.eng-san.eng.san	1.3	0.101
Tatoeba-test.eng-sin.eng.sin	11.7	0.384
Tatoeba-test.eng-snd.eng.snd	2.8	0.180
Tatoeba-test.eng-tgk.eng.tgk	8.1	0.353
Tatoeba-test.eng-tly.eng.tly	0.5	0.015
Tatoeba-test.eng-urd.eng.urd	12.3	0.409
Tatoeba-test.eng-zza.eng.zza	0.5	0.025

システム情報

hf_name: eng-iir
ソース言語: eng
ターゲット言語: iir
OPUSのREADMEのURL: https://github.com/Helsinki-NLP/Tatoeba-Challenge/tree/master/models/eng-iir/README.md
オリジナルのリポジトリ: Tatoeba-Challenge
タグ: ['translation']
言語: ['en', 'bn', 'or', 'gu', 'mr', 'ur', 'hi', 'ps', 'os', 'as', 'si', 'iir']
ソース言語の構成要素: {'eng'}
ターゲット言語の構成要素: {'pnb', 'gom', 'ben', 'hif_Latn', 'ori', 'guj', 'pan_Guru', 'snd_Arab', 'npi', 'mar', 'urd', 'pes', 'bho', 'kur_Arab', 'tgk_Cyrl', 'hin', 'kur_Latn', 'pes_Thaa', 'pus', 'san_Deva', 'oss', 'tly_Latn', 'jdt_Cyrl', 'asm', 'zza', 'rom', 'mai', 'pes_Latn', 'awa', 'sin'}
ソース言語のマルチリンガル: False
ターゲット言語のマルチリンガル: True
前処理: 正規化 + SentencePiece (spm32k,spm32k)
モデルのURL: https://object.pouta.csc.fi/Tatoeba-MT-models/eng-iir/opus2m-2020-08-01.zip
テストセットのURL: https://object.pouta.csc.fi/Tatoeba-MT-models/eng-iir/opus2m-2020-08-01.test.txt
ソース言語のISO 639-3コード: eng
ターゲット言語のISO 639-3コード: iir
短い言語ペア: en-iir
chrF2スコア: 0.392
BLEUスコア: 13.7
簡潔性ペナルティ: 1.0
参照文の長さ: 63351.0
ソース言語の名前: English
ターゲット言語の名前: Indo-Iranian languages
学習日: 2020-08-01
ソース言語のISO 639-2コード: en
ターゲット言語のISO 639-2コード: iir
古いモデルを優先: False
長い言語ペア: eng-iir
HelsinkiのGit SHA: 480fcbe0ee1bf4774bcbe6226ad9f58e63f6c535
TransformersのGit SHA: 2207e5d8cb224e954a7cba69fa4ac2309e9ff30b
移植先のマシン: brutasse
移植日時: 2020-08-21-14:41