opus-mt-tc-big-hu-enオープンソース翻訳モデル - ハンガリー語から英語への高精度翻訳を実現

ホーム

Opus Mt Tc Big Hu En

Helsinki-NLPによって開発

これはハンガリー語から英語へのニューラル機械翻訳モデルで、OPUS-MTプロジェクトの一部です。

機械翻訳

Transformers

複数言語対応#ハンガリー語-英語翻訳 #高精度BLEU #多分野適応

ダウンロード数 371

リリース時間 : 4/13/2022

モデル概要

このモデルはハンガリー語から英語への翻訳タスク専用で、transformer-bigアーキテクチャを採用し、OPUSコーパスからトレーニングデータを取得しています。

モデル特徴

多分野翻訳

モデルは日常会話、ニューステキストなどさまざまな分野のテストセットで良好なパフォーマンスを示します。

高品質翻訳

Tatoebaテストセットで50.4 BLEUスコアを達成し、高い翻訳品質を示しています。

オープンソースライセンス

cc-by-4.0ライセンスを採用しており、商業および研究用途が可能です。

モデル能力

テキスト翻訳

言語間変換

使用事例

コンテンツローカライゼーション

ウェブサイトコンテンツ翻訳

ハンガリー語のウェブサイトコンテンツを英語に翻訳

高品質な翻訳で原文の意味を保持

教育

学習支援

ハンガリー語学習者が英語教材を理解するのを支援

🚀 opus-mt-tc-big-hu-en

このモデルは、ハンガリー語（hu）から英語（en）への翻訳を行うニューラル機械翻訳モデルです。

このモデルは、世界中の多くの言語に対してニューラル機械翻訳モデルを広く利用可能にする取り組みである[OPUS - MTプロジェクト](https://github.com/Helsinki - NLP/Opus - MT)の一部です。すべてのモデルは、最初は純粋なC++で書かれた効率的なNMT実装である[Marian NMT](https://marian - nmt.github.io/)の素晴らしいフレームワークを使用して学習されています。これらのモデルは、huggingfaceのtransformersライブラリを使用してpyTorchに変換されています。学習データはOPUSから取得され、学習パイプラインは[OPUS - MT - train](https://github.com/Helsinki - NLP/Opus - MT - train)の手順を使用しています。

出版物: [OPUS - MT – Building open translation services for the World](https://aclanthology.org/2020.eamt - 1.61/) と [The Tatoeba Translation Challenge – Realistic Data Sets for Low Resource and Multilingual MT](https://aclanthology.org/2020.wmt - 1.139/)（このモデルを使用する場合は、引用してください。）

@inproceedings{tiedemann-thottingal-2020-opus,
    title = "{OPUS}-{MT} {--} Building open translation services for the World",
    author = {Tiedemann, J{\"o}rg  and Thottingal, Santhosh},
    booktitle = "Proceedings of the 22nd Annual Conference of the European Association for Machine Translation",
    month = nov,
    year = "2020",
    address = "Lisboa, Portugal",
    publisher = "European Association for Machine Translation",
    url = "https://aclanthology.org/2020.eamt-1.61",
    pages = "479--480",
}

@inproceedings{tiedemann-2020-tatoeba,
    title = "The Tatoeba Translation Challenge {--} Realistic Data Sets for Low Resource and Multilingual {MT}",
    author = {Tiedemann, J{\"o}rg},
    booktitle = "Proceedings of the Fifth Conference on Machine Translation",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.wmt-1.139",
    pages = "1174--1182",
}

✨ 主な機能

このモデルは、ハンガリー語から英語への高精度な翻訳を提供します。OPUS - MTプロジェクトの一環として、多くの言語に対応したニューラル機械翻訳モデルの一部です。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

from transformers import MarianMTModel, MarianTokenizer

src_text = [
    "Bárcsak ne láttam volna ilyen borzalmas filmet!",
    "Iskolában van."
]

model_name = "pytorch-models/opus-mt-tc-big-hu-en"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))

for t in translated:
    print( tokenizer.decode(t, skip_special_tokens=True) )

# expected output:
#     I wish I hadn't seen such a terrible movie.
#     She's at school.

高度な使用法

from transformers import pipeline
pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-big-hu-en")
print(pipe("Bárcsak ne láttam volna ilyen borzalmas filmet!"))

# expected output: I wish I hadn't seen such a terrible movie.

📚 ドキュメント

モデル情報

属性	详情
リリース日	2022 - 03 - 09
ソース言語	ハンガリー語 (hun)
ターゲット言語	英語 (eng)
モデルタイプ	transformer - big
学習データ	opusTCv20210807+bt ([ソース](https://github.com/Helsinki - NLP/Tatoeba - Challenge))
トークン化	SentencePiece (spm32k,spm32k)
オリジナルモデル	[opusTCv20210807+bt_transformer - big_2022 - 03 - 09.zip](https://object.pouta.csc.fi/Tatoeba - MT - models/hun - eng/opusTCv20210807+bt_transformer - big_2022 - 03 - 09.zip)
公開モデルの詳細情報	[OPUS - MT hun - eng README](https://github.com/Helsinki - NLP/Tatoeba - Challenge/tree/master/models/hun - eng/README.md)

ベンチマーク

テストセットの翻訳結果: [opusTCv20210807+bt_transformer - big_2022 - 03 - 09.test.txt](https://object.pouta.csc.fi/Tatoeba - MT - models/hun - eng/opusTCv20210807+bt_transformer - big_2022 - 03 - 09.test.txt)
テストセットのスコア: [opusTCv20210807+bt_transformer - big_2022 - 03 - 09.eval.txt](https://object.pouta.csc.fi/Tatoeba - MT - models/hun - eng/opusTCv20210807+bt_transformer - big_2022 - 03 - 09.eval.txt)
ベンチマーク結果: benchmark_results.txt
ベンチマーク出力: benchmark_translations.zip

言語ペア	テストセット	chr - F	BLEU	文数	単語数
hun - eng	tatoeba - test - v2021 - 08 - 07	0.66644	50.4	13037	94699
hun - eng	flores101 - devtest	0.61974	34.6	1012	24721
hun - eng	newssyscomb2009	0.52563	24.7	502	11818
hun - eng	newstest2009	0.51698	23.4	2525	65399

謝辞

この研究は、[European Language Grid](https://www.european - language - grid.eu/)の[pilot project 2866](https://live.european - language - grid.eu/catalogue/#/resource/projects/2866)、欧州研究評議会（ERC）の助成による[FoTran project](https://www.helsinki.fi/en/researchgroups/natural - language - understanding - with - cross - lingual - grounding)（欧州連合のHorizon 2020研究・イノベーションプログラム、助成契約番号771113）、および欧州連合のHorizon 2020研究・イノベーションプログラムの助成によるMeMAD project（助成契約番号780069）によって支援されています。また、フィンランドのCSC -- IT Center for Scienceが提供する寛大な計算資源とITインフラストラクチャに感謝します。