opus-mt-tc-big-en-fiオープンソース翻訳モデル - 英語を無料で高精度にフィンランド語に翻訳

Opus Mt Tc Big En Fi

Helsinki-NLPによって開発

これはTransformerアーキテクチャに基づく大規模ニューラル機械翻訳モデルで、英語からフィンランド語への翻訳に特化しています。このモデルはOPUS-MTプロジェクトの一部であり、Marian NMTフレームワークでトレーニングされ、Hugging Faceのtransformersライブラリを通じて提供されています。

機械翻訳

Transformers

複数言語対応#英語-フィンランド語翻訳 #多言語ニューラル機械翻訳 #高BLEUスコア

ダウンロード数 1,255

リリース時間 : 3/22/2022

モデル概要

このモデルは多目的言語の翻訳モデルで、ターゲット言語を指定するために文頭に言語タグ（例：>>fin<<）を追加する必要があります。英語からフィンランド語への翻訳タスクをサポートし、さまざまなテキスト翻訳シナリオに適しています。

モデル特徴

多目的言語サポート

入力テキストの前に言語タグ（例：>>fin<<）を追加することで、翻訳のターゲット言語を指定できます。

高性能翻訳

TatoebaテストセットでBLEUスコア39.3を達成するなど、複数のベンチマークテストで優れたパフォーマンスを発揮します。

OPUSデータに基づくトレーニング

OPUSからの高品質な多言語並列コーパスを使用してトレーニングされており、翻訳品質を保証します。

モデル能力

英語からフィンランド語へのテキスト翻訳

バッチ翻訳をサポート

長文翻訳をサポート

使用事例

コンテンツローカライゼーション

ウェブサイトコンテンツの翻訳

英語のウェブサイトコンテンツをフィンランド語に翻訳し、フィンランドのユーザーがコンテンツをより理解しやすくします。

ニュース翻訳テストセットでBLEUスコア26.4-31.3を達成

教育

学習支援ツール

学生が英語の学習教材をフィンランド語に翻訳するのを支援し、言語学習を補助します。

TatoebaテストセットでBLEUスコア39.3を達成

🚀 opus-mt-tc-big-en-fi

このモデルは、英語（en）からフィンランド語（fi）への翻訳を行うニューラル機械翻訳モデルです。OPUS-MTプロジェクトの一部として、世界中の多くの言語に対して広く利用可能な機械翻訳モデルを提供する取り組みの一環です。

🚀 クイックスタート

このモデルを使って英語からフィンランド語への翻訳を行うには、以下の手順に従ってください。

基本的な使用法

from transformers import MarianMTModel, MarianTokenizer

src_text = [
    "Russia is big.",
    "Touch wood!"
]

model_name = "pytorch-models/opus-mt-tc-big-en-fi"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))

for t in translated:
    print( tokenizer.decode(t, skip_special_tokens=True) )

# expected output:
#     Venäjä on suuri.
#     Kosketa puuta!

高度な使用法

from transformers import pipeline
pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-big-en-fi")
print(pipe("Russia is big."))

# expected output: Venäjä on suuri.

✨ 主な機能

英語からフィンランド語への高精度な翻訳を提供します。
複数のターゲット言語をサポートする多言語翻訳モデルです。

📦 インストール

このモデルは、Hugging Faceのtransformersライブラリを使って簡単にインストールできます。必要な依存関係をインストールすることで、すぐに使用できます。

📚 ドキュメント

モデル情報

属性	详情
モデルタイプ	transformer (big)
訓練データ	opusTCv20210807+bt (ソース)
リリース日	2022-03-09
ソース言語	eng
ターゲット言語	fin
有効なターゲット言語ラベル	>>fin<<
トークン化	SentencePiece (spm32k,spm32k)
元のモデル	opusTCv20210807+bt_transformer-big_2022-03-09.zip
モデルの詳細情報	MarianMT

ベンチマーク

言語ペア	テストセット	chr-F	BLEU	文数	単語数
eng-fin	tatoeba-test-v2021-08-07	0.64352	39.3	10690	65122
eng-fin	flores101-devtest	0.61334	27.6	1012	18781
eng-fin	newsdev2015	0.58367	24.2	1500	23091
eng-fin	newstest2015	0.60080	26.4	1370	19735
eng-fin	newstest2016	0.61636	28.8	3000	47678
eng-fin	newstest2017	0.64381	31.3	3002	45269
eng-fin	newstest2018	0.55626	19.7	3000	44836
eng-fin	newstest2019	0.58420	26.4	1997	38369
eng-fin	newstestB2016	0.57554	23.3	3000	45766
eng-fin	newstestB2017	0.60212	26.8	3002	45506

引用情報

Publications: OPUS-MT – Building open translation services for the World と The Tatoeba Translation Challenge – Realistic Data Sets for Low Resource and Multilingual MT (このモデルを使用する場合は、引用してください。)

@inproceedings{tiedemann-thottingal-2020-opus,
    title = "{OPUS}-{MT} {--} Building open translation services for the World",
    author = {Tiedemann, J{\"o}rg  and Thottingal, Santhosh},
    booktitle = "Proceedings of the 22nd Annual Conference of the European Association for Machine Translation",
    month = nov,
    year = "2020",
    address = "Lisboa, Portugal",
    publisher = "European Association for Machine Translation",
    url = "https://aclanthology.org/2020.eamt-1.61",
    pages = "479--480",
}

@inproceedings{tiedemann-2020-tatoeba,
    title = "The Tatoeba Translation Challenge {--} Realistic Data Sets for Low Resource and Multilingual {MT}",
    author = {Tiedemann, J{\"o}rg},
    booktitle = "Proceedings of the Fifth Conference on Machine Translation",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.wmt-1.139",
    pages = "1174--1182",
}

🔧 技術詳細

このモデルは、Marian NMT というフレームワークを使って訓練され、huggingfaceのtransformersライブラリを使ってpyTorchに変換されています。訓練データは OPUS から取得され、訓練パイプラインは OPUS-MT-train の手順に従っています。

📄 ライセンス

このモデルは、CC BY 4.0ライセンスの下で提供されています。

謝辞

この研究は、European Language Grid のpilot project 2866、FoTran project（European Research Council (ERC) からの助成金No 771113による資金提供）、および MeMAD project（European Union’s Horizon 2020 Research and Innovation Programmeの助成金No 780069による資金提供）によって支援されています。また、フィンランドの CSC -- IT Center for Science が提供する計算資源とITインフラストラクチャに感謝します。