opus-mt-tc-big-gmq-enオープンソース翻訳モデル - 北ゲルマン語族から英語への翻訳を無料で実現

ホーム

Opus Mt Tc Big Gmq En

Helsinki-NLPによって開発

これは北ゲルマン語派(gmq)から英語(en)へのニューラル機械翻訳モデルで、OPUS-MTプロジェクトの一部です。

機械翻訳

Transformers

複数言語対応#北ゲルマン語翻訳 #高BLEUスコア #多言語対応

ダウンロード数 552

リリース時間 : 4/13/2022

モデル概要

このモデルはデンマーク語、フェロー語、アイスランド語、ニーノシュク、ブークモール、スウェーデン語から英語への翻訳タスクをサポートし、transformer-bigアーキテクチャで訓練されています。

モデル特徴

多言語対応

複数の北ゲルマン語派言語から英語への翻訳をサポート

高性能翻訳

複数のテストセットで優れた性能を発揮、例えばデンマーク語-英語でBLEU65.9を達成

OPUSデータベース

訓練データはOPUSコーパスから取得し、広範な言語ペアをカバー

モデル能力

デンマーク語から英語翻訳

フェロー語から英語翻訳

アイスランド語から英語翻訳

ニーノシュクから英語翻訳

ブークモールから英語翻訳

スウェーデン語から英語翻訳

使用事例

テキスト翻訳

北欧言語コンテンツ翻訳

デンマーク語、スウェーデン語などの北欧言語コンテンツを英語に翻訳

tatoebaテストセットでデンマーク語-英語BLEU65.9を達成

多言語アプリケーション統合

北欧言語翻訳が必要なアプリケーションやサービスに統合

複数の北ゲルマン語派言語の翻訳をサポート

🚀 opus-mt-tc-big-gmq-en

北日耳曼語族（gmq）から英語（en）への翻訳を行うニューラル機械翻訳モデルです。このモデルは、世界中の多くの言語に対してニューラル機械翻訳モデルを広く利用可能にする取り組みである[OPUS - MTプロジェクト](https://github.com/Helsinki - NLP/Opus - MT)の一部です。すべてのモデルは、純粋なC++で書かれた効率的なNMT実装である[Marian NMT](https://marian - nmt.github.io/)の素晴らしいフレームワークを使用して元々トレーニングされています。モデルは、huggingfaceのtransformersライブラリを使用してpyTorchに変換されています。トレーニングデータはOPUSから取得され、トレーニングパイプラインは[OPUS - MT - train](https://github.com/Helsinki - NLP/Opus - MT - train)の手順を使用しています。

出版物: [OPUS - MT – Building open translation services for the World](https://aclanthology.org/2020.eamt - 1.61/) および [The Tatoeba Translation Challenge – Realistic Data Sets for Low Resource and Multilingual MT](https://aclanthology.org/2020.wmt - 1.139/)（このモデルを使用する場合は、引用してください。）

@inproceedings{tiedemann-thottingal-2020-opus,
    title = "{OPUS}-{MT} {--} Building open translation services for the World",
    author = {Tiedemann, J{\"o}rg  and Thottingal, Santhosh},
    booktitle = "Proceedings of the 22nd Annual Conference of the European Association for Machine Translation",
    month = nov,
    year = "2020",
    address = "Lisboa, Portugal",
    publisher = "European Association for Machine Translation",
    url = "https://aclanthology.org/2020.eamt-1.61",
    pages = "479--480",
}

@inproceedings{tiedemann-2020-tatoeba,
    title = "The Tatoeba Translation Challenge {--} Realistic Data Sets for Low Resource and Multilingual {MT}",
    author = {Tiedemann, J{\"o}rg},
    booktitle = "Proceedings of the Fifth Conference on Machine Translation",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.wmt-1.139",
    pages = "1174--1182",
}

🚀 クイックスタート

このモデルは、北日耳曼語族（gmq）から英語（en）への翻訳タスクに使用できます。以下のセクションでは、モデルの情報、使用方法、ベンチマーク結果などを説明します。

✨ 主な機能

北日耳曼語族（gmq）から英語（en）への高精度な翻訳を提供します。
ニューラル機械翻訳技術を用いて、自然な翻訳結果を生成します。

📚 ドキュメント

モデル情報

属性	詳情
リリース日	2022-03-09
ソース言語	dan fao isl nno nob nor swe
ターゲット言語	eng
モデルタイプ	transformer - big
トレーニングデータ	opusTCv20210807+bt (ソース)
トークン化方法	SentencePiece (spm32k,spm32k)
オリジナルモデル	opusTCv20210807+bt_transformer - big_2022 - 03 - 09.zip
詳細情報	OPUS - MT gmq - eng README

モデル変換情報

transformersバージョン: 4.16.2
OPUS - MTのgitハッシュ: 3405783
変換時間: Wed Apr 13 19:13:11 EEST 2022
変換マシン: LM0 - 400 - 22516.local

💻 使用例

基本的な使用法

from transformers import MarianMTModel, MarianTokenizer

src_text = [
    "Han var synligt nervøs.",
    "Inte ens Tom själv var övertygad."
]

model_name = "pytorch-models/opus-mt-tc-big-gmq-en"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))

for t in translated:
    print( tokenizer.decode(t, skip_special_tokens=True) )

# 期待される出力:
#     He was visibly nervous.
#     Even Tom was not convinced.

高度な使用法

from transformers import pipeline
pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-big-gmq-en")
print(pipe("Han var synligt nervøs."))

# 期待される出力: He was visibly nervous.

🔧 技術詳細

このモデルは、Marian NMTフレームワークを使用してトレーニングされ、transformersライブラリを用いてpyTorchに変換されています。トレーニングデータはOPUSから取得され、SentencePieceを用いてトークン化されています。

📄 ライセンス

このモデルはcc - by - 4.0ライセンスの下で提供されています。

🔍 ベンチマーク

言語ペア	テストセット	chr - F	BLEU	文数	単語数
dan - eng	tatoeba - test - v2021 - 08 - 07	0.78292	65.9	10795	79684
fao - eng	tatoeba - test - v2021 - 08 - 07	0.47467	30.1	294	1984
isl - eng	tatoeba - test - v2021 - 08 - 07	0.68346	53.3	2503	19788
nno - eng	tatoeba - test - v2021 - 08 - 07	0.69788	56.1	460	3524
nob - eng	tatoeba - test - v2021 - 08 - 07	0.73524	60.2	4539	36823
swe - eng	tatoeba - test - v2021 - 08 - 07	0.77665	66.4	10362	68513
dan - eng	flores101 - devtest	0.72322	49.3	1012	24721
isl - eng	flores101 - devtest	0.59616	34.2	1012	24721
nob - eng	flores101 - devtest	0.68224	44.2	1012	24721
swe - eng	flores101 - devtest	0.72042	49.8	1012	24721
isl - eng	newsdev2021.is - en	0.56709	30.4	2004	46383
isl - eng	newstest2021.is - en	0.57756	34.4	1000	22529

テストセット翻訳結果: opusTCv20210807+bt_transformer - big_2022 - 03 - 09.test.txt
テストセットスコア: opusTCv20210807+bt_transformer - big_2022 - 03 - 09.eval.txt
ベンチマーク結果: benchmark_results.txt
ベンチマーク出力: benchmark_translations.zip

🙏 謝辞

この研究は、[European Language Grid](https://www.european - language - grid.eu/)の[pilot project 2866](https://live.european - language - grid.eu/catalogue/#/resource/projects/2866)、[FoTranプロジェクト](https://www.helsinki.fi/en/researchgroups/natural - language - understanding - with - cross - lingual - grounding)（欧州研究評議会（ERC）による欧州連合のHorizon 2020研究・イノベーションプログラム（助成契約番号771113）による資金提供を受けています）、およびMeMADプロジェクト（欧州連合のHorizon 2020研究・イノベーションプログラム（助成契約番号780069）による資金提供を受けています）によって支援されています。また、フィンランドのCSC -- IT Center for Scienceが提供する寛大な計算資源とITインフラストラクチャに感謝します。