opus-mt-tc-big-en-koオープンソース翻訳モデル - 無料で英語から韓国語への高精度な翻訳を実現

ホーム

Opus Mt Tc Big En Ko

Helsinki-NLPによって開発

これはヘルシンキ大学言語技術研究グループによって開発された英語から韓国語へのニューラル機械翻訳モデルで、OPUS-MTプロジェクトの一部です。

機械翻訳

Transformers

複数言語対応#英語-韓国語翻訳 #多言語サポート #高精度翻訳

ダウンロード数 1,880

リリース時間 : 8/12/2022

モデル概要

このモデルは英語(en)から韓国語(ko)へのニューラル機械翻訳タスクに使用され、transformer-bigアーキテクチャに基づいて訓練されています。

モデル特徴

多言語サポート

複数のターゲット言語の翻訳をサポートしており、文頭に言語タグを追加する必要があります。

効率的な訓練

Marian NMTフレームワークを使用して訓練され、PyTorch形式に変換されており、使いやすいです。

オープンデータ

訓練データはオープンなOPUSコーパスから取得されており、モデルはCC-BY-4.0ライセンスに従います。

モデル能力

英語から韓国語への翻訳

テキスト生成

使用事例

翻訳サービス

ドキュメント翻訳

英語のドキュメントを韓国語に翻訳し、クロスランゲージドキュメント処理に適しています。

リアルタイム翻訳

チャットやコミュニケーションアプリに統合し、英語から韓国語へのリアルタイム翻訳を提供します。

🚀 opus-mt-tc-big-en-ko

このモデルは、英語（en）から韓国語（ko）への翻訳を行うニューラル機械翻訳モデルです。OPUS - MTプロジェクトの一部として、多くの言語に対する機械翻訳モデルを広く利用可能にする取り組みの一環で開発されています。

🚀 クイックスタート

モデルの使い方

以下は、このモデルを使用した短いコード例です。

from transformers import MarianMTModel, MarianTokenizer

src_text = [
    "2, 4, 6 etc. are even numbers.",
    "Yes."
]

model_name = "pytorch-models/opus-mt-tc-big-en-ko"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))

for t in translated:
    print( tokenizer.decode(t, skip_special_tokens=True) )

# expected output:
#     2, 4, 6 등은 짝수입니다.
#     그래

また、transformers のパイプラインを使用することもできます。

from transformers import pipeline
pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-big-en-ko")
print(pipe("2, 4, 6 etc. are even numbers."))

# expected output: 2, 4, 6 등은 짝수입니다.

✨ 主な機能

このモデルは、翻訳とテキスト生成に使用できます。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

from transformers import MarianMTModel, MarianTokenizer

src_text = [
    "2, 4, 6 etc. are even numbers.",
    "Yes."
]

model_name = "pytorch-models/opus-mt-tc-big-en-ko"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))

for t in translated:
    print( tokenizer.decode(t, skip_special_tokens=True) )

# expected output:
#     2, 4, 6 등은 짝수입니다.
#     그래

高度な使用法

from transformers import pipeline
pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-big-en-ko")
print(pipe("2, 4, 6 etc. are even numbers."))

# expected output: 2, 4, 6 등은 짝수입니다.

📚 ドキュメント

モデルの詳細

英語（en）から韓国語（ko）への翻訳を行うニューラル機械翻訳モデルです。このモデルは OPUS - MTプロジェクトの一部で、世界中の多くの言語に対するニューラル機械翻訳モデルを広く利用可能にする取り組みの一環です。すべてのモデルは、最初は Marian NMT という素晴らしいフレームワークを使用してトレーニングされています。これは、純粋なC++で書かれた効率的なNMTの実装です。モデルは、huggingfaceの transformers ライブラリを使用してpyTorchに変換されています。トレーニングデータは OPUS から取得され、トレーニングパイプラインは OPUS - MT - train の手順を使用しています。

属性	详情
開発者	ヘルシンキ大学の言語技術研究グループ
モデルタイプ	翻訳（transformer - big）
リリース日	2022 - 07 - 28
ライセンス	CC - BY - 4.0
言語	ソース言語: 英語（en）ターゲット言語: 韓国語（ko）有効なターゲット言語ラベル: 韓国語（ko）
元のモデル	opusTCv20210807 - sepvoc_transformer - big_2022 - 07 - 28.zip
詳細情報のリソース	OPUS - MT - train GitHubリポジトリこの言語ペアのリリースモデルに関する詳細情報 transformersライブラリのMarianNMTモデルに関する詳細情報 Tatoeba翻訳チャレンジ

これは、複数のターゲット言語を持つ多言語翻訳モデルです。文の最初に >>id<<（id = 有効なターゲット言語ID）の形式で言語トークンが必要です。

トレーニング

データ: opusTCv20210807 (ソース)
前処理: SentencePiece (spm32k,spm32k)
モデルタイプ: transformer - big
元のMarianNMTモデル: opusTCv20210807 - sepvoc_transformer - big_2022 - 07 - 28.zip
トレーニングスクリプト: GitHubリポジトリ

評価

テストセットの翻訳: opusTCv20210807 - sepvoc_transformer - big_2022 - 07 - 28.test.txt
テストセットのスコア: opusTCv20210807 - sepvoc_transformer - big_2022 - 07 - 28.eval.txt
ベンチマーク結果: benchmark_results.txt
ベンチマーク出力: benchmark_translations.zip

langpair	testset	chr - F	BLEU	#sent	#words

引用情報

このモデルを使用する場合は、以下の出版物を引用してください。

@inproceedings{tiedemann-thottingal-2020-opus,
    title = "{OPUS}-{MT} {--} Building open translation services for the World",
    author = {Tiedemann, J{\"o}rg  and Thottingal, Santhosh},
    booktitle = "Proceedings of the 22nd Annual Conference of the European Association for Machine Translation",
    month = nov,
    year = "2020",
    address = "Lisboa, Portugal",
    publisher = "European Association for Machine Translation",
    url = "https://aclanthology.org/2020.eamt-1.61",
    pages = "479--480",
}

@inproceedings{tiedemann-2020-tatoeba,
    title = "The Tatoeba Translation Challenge {--} Realistic Data Sets for Low Resource and Multilingual {MT}",
    author = {Tiedemann, J{\"o}rg},
    booktitle = "Proceedings of the Fifth Conference on Machine Translation",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.wmt-1.139",
    pages = "1174--1182",
}

謝辞

この研究は、European Language Grid のパイロットプロジェクト2866、FoTranプロジェクト（欧州研究評議会（ERC）による欧州連合のHorizon 2020研究・イノベーションプログラム（助成協定番号771113）による資金提供）、および MeMADプロジェクト（欧州連合のHorizon 2020研究・イノベーションプログラムによる助成協定番号780069）によって支援されています。また、フィンランドの CSC -- IT Center for Science が提供する計算資源とITインフラストラクチャに感謝します。