opus-mt-tc-big-en-arオープンソース翻訳モデル - 無料で英語からアラビア語への多目的翻訳を実現

ホーム

Opus Mt Tc Big En Ar

Helsinki-NLPによって開発

これは英語からアラビア語へのニューラル機械翻訳モデルで、OPUS-MTプロジェクトの一部であり、多目的言語翻訳をサポートしています。

機械翻訳

Transformers

複数言語対応#英語-アラビア語翻訳 #多目的言語サポート #高精度翻訳

ダウンロード数 4,562

リリース時間 : 4/13/2022

モデル概要

このモデルは英語からアラビア語への翻訳タスク専用で、transformer-bigアーキテクチャを採用し、OPUSコーパスからのトレーニングデータを使用しており、湾岸アラビア語と標準アラビア語の2つのバリアントをサポートしています。

モデル特徴

多目的言語サポート

標準アラビア語と湾岸アラビア語の2つのバリアントをサポートし、ターゲット言語IDプレフィックスを追加することで多言語翻訳を実現します。

高品質翻訳

flores101-devtestテストセットで29.4 BLEUスコアを達成し、優れたパフォーマンスを示しています。

OPUSコーパスベース

トレーニングデータは広範なOPUS多言語コーパスから取得され、さまざまな分野とコンテキストをカバーしています。

モデル能力

英語からアラビア語へのテキスト翻訳

標準アラビア語と湾岸アラビア語バリアントのサポート

バッチテキスト処理

使用事例

コンテンツローカライゼーション

ウェブサイトコンテンツ翻訳

英語のウェブサイトコンテンツをアラビア語に翻訳し、複数の地域バリアントをサポートします。

flores101テストセットで29.4 BLEUスコアを達成

ビジネスコミュニケーション

ビジネス文書翻訳

ビジネスレター、契約書などの正式な文書を翻訳します。

tico19テストセットで30.0 BLEUスコアを達成

🚀 opus-mt-tc-big-en-ar

このモデルは英語（en）からアラビア語（ar）への翻訳を行うニューラル機械翻訳モデルです。 OPUS-MTプロジェクトの一環として開発され、世界中の多くの言語に対して機械翻訳モデルを広く利用可能にする取り組みの一部です。

🚀 クイックスタート

このモデルは、英語からアラビア語への翻訳を行うために使用できます。以下に使用例を示します。

✨ 主な機能

英語からアラビア語への翻訳を行うことができます。
複数のターゲット言語に対応した多言語翻訳モデルです。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import MarianMTModel, MarianTokenizer

src_text = [
    ">>ara<< I can't help you because I'm busy.",
    ">>ara<< I have to write a letter. Do you have some paper?"
]

model_name = "pytorch-models/opus-mt-tc-big-en-ar"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))

for t in translated:
    print( tokenizer.decode(t, skip_special_tokens=True) )

# expected output:
#     لا أستطيع مساعدتك لأنني مشغول.
#     يجب أن أكتب رسالة هل لديك بعض الأوراق؟

高度な使用法

from transformers import pipeline
pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-big-en-ar")
print(pipe(">>ara<< I can't help you because I'm busy."))

# expected output: لا أستطيع مساعدتك لأنني مشغول.

📚 ドキュメント

モデル情報

属性	详情
モデルタイプ	transformer-big
トレーニングデータ	opusTCv20210807+bt (ソース)
リリース日	2022-02-25
ソース言語	eng
ターゲット言語	afb ara
有効なターゲット言語ラベル	>>afb<< >>ara<<
トークナイゼーション	SentencePiece (spm32k,spm32k)
オリジナルモデル	opusTCv20210807+bt_transformer-big_2022-02-25.zip
公開モデルの詳細情報	OPUS-MT eng-ara README
モデルに関する詳細情報	MarianMT

ベンチマーク

言語ペア	テストセット	chr-F	BLEU	文数	単語数
eng-ara	tatoeba-test-v2021-08-07	0.48813	19.8	10305	61356
eng-ara	flores101-devtest	0.61154	29.4	1012	21357
eng-ara	tico19-test	0.60075	30.0	2100	51339

モデル変換情報

transformersバージョン: 4.16.2
OPUS-MTのgitハッシュ: 3405783
ポート時間: Wed Apr 13 16:37:31 EEST 2022
ポートマシン: LM0-400-22516.local

🔧 技術詳細

このモデルは、Marian NMTというフレームワークを使用して訓練され、huggingfaceのtransformersライブラリを使用してpyTorchに変換されています。訓練データはOPUSから取得され、訓練パイプラインはOPUS-MT-trainの手順に従っています。

📄 ライセンス

このモデルはCC BY 4.0ライセンスの下で提供されています。

引用情報

@inproceedings{tiedemann-thottingal-2020-opus,
    title = "{OPUS}-{MT} {--} Building open translation services for the World",
    author = {Tiedemann, J{\"o}rg  and Thottingal, Santhosh},
    booktitle = "Proceedings of the 22nd Annual Conference of the European Association for Machine Translation",
    month = nov,
    year = "2020",
    address = "Lisboa, Portugal",
    publisher = "European Association for Machine Translation",
    url = "https://aclanthology.org/2020.eamt-1.61",
    pages = "479--480",
}

@inproceedings{tiedemann-2020-tatoeba,
    title = "The Tatoeba Translation Challenge {--} Realistic Data Sets for Low Resource and Multilingual {MT}",
    author = {Tiedemann, J{\"o}rg},
    booktitle = "Proceedings of the Fifth Conference on Machine Translation",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.wmt-1.139",
    pages = "1174--1182",
}

謝辞

この研究は、European Language Gridのpilot project 2866、FoTranプロジェクト、MeMADプロジェクトによって支援されています。また、フィンランドのCSC -- IT Center for Scienceから提供された計算資源とITインフラストラクチャに感謝します。