opus-mt-tc-big-zle-enオープンソース翻訳モデル - ベラルーシ語、ロシア語、ウクライナ語を無料で英語に翻訳

ホーム

Opus Mt Tc Big Zle En

Helsinki-NLPによって開発

東スラブ言語（ベラルーシ語、ロシア語、ウクライナ語）から英語への翻訳用ニューラル機械翻訳モデルで、OPUS-MTプロジェクトに基づいて開発されました。

機械翻訳

Transformers

複数言語対応#東スラブ語翻訳 #多言語NMT #高BLEUスコア

ダウンロード数 513

リリース時間 : 3/21/2022

モデル概要

このモデルはtransformer-bigアーキテクチャに基づくニューラル機械翻訳モデルで、東スラブ語族の言語（ベラルーシ語、ロシア語、ウクライナ語）から英語への翻訳に特化しています。OPUS-MTプロジェクトの一部であり、高品質な機械翻訳サービスを提供することを目的としています。

モデル特徴

多言語サポート

ベラルーシ語、ロシア語、ウクライナ語から英語への翻訳をサポートしています。

高性能

複数のテストセットで優れた性能を発揮し、BLEUスコアは35から57の範囲です。

オープンソース

オープンソースライセンスで公開されており、自由に使用・改変できます。

モデル能力

ベラルーシ語から英語への翻訳

ロシア語から英語への翻訳

ウクライナ語から英語への翻訳

使用事例

テキスト翻訳

ニュース翻訳

ロシア語のニュースを英語に翻訳し、国際的な読者が読めるようにします。

newstest2014テストセットでBLEUスコア40.5を達成。

ソーシャルメディアコンテンツ翻訳

ウクライナ語のソーシャルメディアコンテンツを英語に翻訳し、視聴者層を拡大します。

flores101-devtestテストセットでBLEUスコア39.2を達成。

教育

学習支援

学生がベラルーシ語の学習教材を英語に翻訳するのを支援します。

tatoeba-test-v2021-08-07テストセットでBLEUスコア48.1を達成。

🚀 opus-mt-tc-big-zle-en

東スラブ語（zle）から英語（en）への翻訳を行うニューラル機械翻訳モデルです。このモデルは、世界中の多くの言語に対してニューラル機械翻訳モデルを広く利用可能にする取り組みである[OPUS - MTプロジェクト](https://github.com/Helsinki - NLP/Opus - MT)の一部です。

言語

ライセンス

cc-by-4.0

モデルインデックス

プロパティ	詳細
モデル名	opus-mt-tc-big-zle-en
タスク	翻訳（rus-eng、ukr-eng、bel-engなど）
データセット	flores101-devtest、tatoeba-test-v2021-08-07、tico19-test、newstest2012 - 2020など
評価指標	BLEU

各タスクの詳細な評価結果は以下の通りです。

Translation rus-eng
- flores101-devtest: BLEU値 35.2
- tatoeba-test-v2021-08-07: BLEU値 57.4
- tico19-test: BLEU値 33.3
- newstest2012: BLEU値 39.2
- newstest2013: BLEU値 31.3
- newstest2014: BLEU値 40.5
- newstest2015: BLEU値 36.1
- newstest2016: BLEU値 35.7
- newstest2017: BLEU値 40.8
- newstest2018: BLEU値 35.2
- newstest2019: BLEU値 41.6
- newstest2020: BLEU値 36.9
Translation ukr-eng
- flores101-devtest: BLEU値 39.2
- tatoeba-test-v2021-08-07: BLEU値 56.9
Translation bel-eng
- tatoeba-test-v2021-08-07: BLEU値 48.1

🚀 クイックスタート

このモデルは、東スラブ語（zle）から英語（en）への翻訳を行うためのニューラル機械翻訳モデルです。以下に、このモデルの使用方法の簡単な例を示します。

モデルの概要

このモデルは[OPUS - MTプロジェクト](https://github.com/Helsinki - NLP/Opus - MT)の一部で、すべてのモデルは[Marian NMT](https://marian - nmt.github.io/)という素晴らしいフレームワークを使用して最初に学習されました。その後、huggingfaceのtransformersライブラリを使用してpyTorchに変換されています。学習データはOPUSから取得され、学習パイプラインは[OPUS - MT - train](https://github.com/Helsinki - NLP/Opus - MT - train)の手順を使用しています。

引用文献

[OPUS - MT – Building open translation services for the World](https://aclanthology.org/2020.eamt - 1.61/)
[The Tatoeba Translation Challenge – Realistic Data Sets for Low Resource and Multilingual MT](https://aclanthology.org/2020.wmt - 1.139/)

@inproceedings{tiedemann-thottingal-2020-opus,
    title = "{OPUS}-{MT} {--} Building open translation services for the World",
    author = {Tiedemann, J{\"o}rg  and Thottingal, Santhosh},
    booktitle = "Proceedings of the 22nd Annual Conference of the European Association for Machine Translation",
    month = nov,
    year = "2020",
    address = "Lisboa, Portugal",
    publisher = "European Association for Machine Translation",
    url = "https://aclanthology.org/2020.eamt-1.61",
    pages = "479--480",
}

@inproceedings{tiedemann-2020-tatoeba,
    title = "The Tatoeba Translation Challenge {--} Realistic Data Sets for Low Resource and Multilingual {MT}",
    author = {Tiedemann, J{\"o}rg},
    booktitle = "Proceedings of the Fifth Conference on Machine Translation",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.wmt-1.139",
    pages = "1174--1182",
}

✨ 主な機能

東スラブ語（ベラルーシ語、ロシア語、ウクライナ語）から英語への高精度な翻訳を提供します。
複数のデータセットでの学習により、様々な文脈での翻訳に対応しています。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

from transformers import MarianMTModel, MarianTokenizer

src_text = [
    "Скільки мені слід купити пива?",
    "Я клієнтка."
]

model_name = "pytorch-models/opus-mt-tc-big-zle-en"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))

for t in translated:
    print( tokenizer.decode(t, skip_special_tokens=True) )

# expected output:
#     How much beer should I buy?
#     I'm a client.

高度な使用法

from transformers import pipeline
pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-big-zle-en")
print(pipe("Скільки мені слід купити пива?"))

# expected output: How much beer should I buy?

📚 ドキュメント

モデル情報

属性	详情
リリース日	2022-03-17
ソース言語	bel, rus, ukr
ターゲット言語	eng
モデルタイプ	transformer-big
学習データ	opusTCv20210807+bt (ソース)
トークン化	SentencePiece (spm32k,spm32k)
オリジナルモデル	opusTCv20210807+bt_transformer-big_2022-03-17.zip
詳細情報	OPUS-MT zle-eng README

ベンチマーク

テストセットの翻訳結果: opusTCv20210807+bt_transformer-big_2022-03-17.test.txt
テストセットのスコア: opusTCv20210807+bt_transformer-big_2022-03-17.eval.txt
ベンチマーク結果: benchmark_results.txt
ベンチマーク出力: benchmark_translations.zip

言語ペア	テストセット	chr-F	BLEU	文数	単語数
bel-eng	tatoeba-test-v2021-08-07	0.65221	48.1	2500	18571
rus-eng	tatoeba-test-v2021-08-07	0.71452	57.4	19425	147872
ukr-eng	tatoeba-test-v2021-08-07	0.71162	56.9	13127	88607
bel-eng	flores101-devtest	0.51689	18.1	1012	24721
rus-eng	flores101-devtest	0.62581	35.2	1012	24721
ukr-eng	flores101-devtest	0.65001	39.2	1012	24721
rus-eng	newstest2012	0.63724	39.2	3003	72812
rus-eng	newstest2013	0.57641	31.3	3000	64505
rus-eng	newstest2014	0.65667	40.5	3003	69190
rus-eng	newstest2015	0.61747	36.1	2818	64428
rus-eng	newstest2016	0.61414	35.7	2998	69278
rus-eng	newstest2017	0.65365	40.8	3001	69025
rus-eng	newstest2018	0.61386	35.2	3000	71291
rus-eng	newstest2019	0.65476	41.6	2000	42642
rus-eng	newstest2020	0.64878	36.9	991	20217
rus-eng	newstestB2020	0.65685	39.3	991	20423
rus-eng	tico19-test	0.63280	33.3	2100	56323

🔧 技術詳細

このREADMEには具体的な技術詳細が50文字以上記載されていないため、このセクションは省略されます。

📄 ライセンス

このモデルはcc-by-4.0ライセンスの下で提供されています。

謝辞

この研究は、European Language Gridのpilot project 2866、FoTranプロジェクト（欧州研究評議会（ERC）による欧州連合のHorizon 2020研究・革新プログラム（助成契約番号771113）の助成を受けています）、およびMeMADプロジェクト（欧州連合のHorizon 2020研究・革新プログラム（助成契約番号780069）の助成を受けています）によって支援されています。また、フィンランドのCSC -- IT Center for Scienceによって提供される計算資源とITインフラストラクチャに感謝します。