🚀 HPLT MTリリースv1.0
このリポジトリには、OPUSとHPLTのデータを使用して学習されたアラビア語と英語の翻訳モデルが含まれています。このモデルは、MarianとHugging Faceの両方の形式で利用可能です。
✨ 主な機能
- アラビア語と英語の翻訳を行うことができます。
- MarianとHugging Faceの両方の形式で提供されています。
📦 インストール
このモデルは、MarianNMTを使用して学習されており、重みはMarian形式です。また、このモデルをHugging Face形式に変換しているので、transformers
と互換性があります。
Marianを使用する場合
MarianNMTで推論を実行するには、GitHubリポジトリのInference/Decoding/Translationセクションを参照してください。このリポジトリからモデルファイルmodel.npz.best-chrf.npz
と語彙ファイルmodel.ar-en.spm
が必要です。
transformersを使用する場合
このモデルをHugging Face形式に変換しているので、以下のスクリプトで始めることができます。注意:重み変換に関する既知の問題のため、チェックポイントはtransformerバージョン<4.26または>4.30では動作しません。私たちはテストし、pip install transformers==4.28
を推奨します。
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("HPLT/translate-ar-en-v1.0-hplt_opus")
model = AutoModelForSeq2SeqLM.from_pretrained("HPLT/translate-ar-en-v1.0-hplt_opus")
inputs = ["Input goes here.", "Make sure the language is right."]
batch_tokenized = tokenizer(inputs, return_tensors="pt", padding=True)
model_output = model.generate(
**batch_tokenized, num_beams=6, max_new_tokens=512
)
batch_detokenized = tokenizer.batch_decode(
model_output,
skip_special_tokens=True,
)
print(batch_detokenized)
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("HPLT/translate-ar-en-v1.0-hplt_opus")
model = AutoModelForSeq2SeqLM.from_pretrained("HPLT/translate-ar-en-v1.0-hplt_opus")
inputs = ["Input goes here.", "Make sure the language is right."]
batch_tokenized = tokenizer(inputs, return_tensors="pt", padding=True)
model_output = model.generate(
**batch_tokenized, num_beams=6, max_new_tokens=512
)
batch_detokenized = tokenizer.batch_decode(
model_output,
skip_special_tokens=True,
)
print(batch_detokenized)
📚 ドキュメント
モデル情報
プロパティ |
詳細 |
モデルタイプ |
Transformer-base |
訓練データ |
OPUSとHPLTのデータ |
ソース言語 |
アラビア語 |
ターゲット言語 |
英語 |
トークナイザー |
SentencePiece (Unigram) |
クリーニング |
OpusCleanerを一連の基本ルールで使用。詳細はこちらのフィルターファイルを参照。 |
詳細については、成果報告書、GitHubリポジトリ、およびウェブサイトをご確認ください。
ベンチマーク
Marianを使用してデコードすると、このモデルは以下のテストスコアを持ちます。
テストセット |
BLEU |
chrF++ |
COMET22 |
FLORES200 |
40.1 |
63.1 |
0.8645 |
NTREX |
34.7 |
58.9 |
0.8426 |
📄 ライセンス
このプロジェクトは、クリエイティブ・コモンズ 表示 4.0 国際ライセンス(CC BY 4.0)の下で提供されています。
謝辞
このプロジェクトは、欧州連合のHorizon Europe研究・イノベーションプログラムから助成契約番号101070350で、また英国政府のHorizon Europe資金保証の下で英国研究・イノベーション(UKRI)から[助成番号10052546]で資金提供を受けています。
このプロジェクトは、エジンバラ大学とプラハのチャールズ大学の研究者によって行われ、HPLTコンソーシアム全体の支援を受けています。