translate-ar-en-v1.0-hplt_opusオープンソース翻訳モデル - アラビア語と英語の無料相互翻訳を実現

ホーム

Translate Ar En V1.0 Hplt Opus

HPLTによって開発

OPUSとHPLTデータで訓練されたアラビア語-英語機械翻訳モデルで、MarianとHugging Faceの2形式を提供します。

機械翻訳

Transformers

複数言語対応#アラビア語-英語翻訳 #高精度機械翻訳 #多分野対応

ダウンロード数 20

リリース時間 : 2/27/2024

モデル概要

このモデルはアラビア語から英語への機械翻訳タスク専用に設計され、Transformer-baseアーキテクチャを採用し、SentencePieceトークナイザーでテキストを処理します。

モデル特徴

マルチフレームワーク対応

MarianNMTとHugging Faceの両形式を提供し、様々な開発環境のニーズに対応します。

高品質データ訓練

OpusCleanerで厳密にクリーニングされたOPUSとHPLTデータセットを使用して訓練され、翻訳品質を保証します。

高性能トークン化

SentencePieceのUnigramアルゴリズムを使用したトークン化により、アラビア語と英語のテキストを効果的に処理します。

モデル能力

アラビア語から英語へのテキスト翻訳

バッチテキスト処理

高品質機械翻訳

使用事例

異言語コミュニケーション

アラビア語ドキュメント翻訳

アラビア語ドキュメントを自動的に英語に翻訳し、国際的なコミュニケーションを容易にします。

FLORES200テストセットで40.1 BLEUスコアを達成

多言語コンテンツローカライゼーション

コンテンツクリエーターがアラビア語コンテンツを迅速に英語版に変換するのを支援します。

NTREXテストセットで34.7 BLEUスコアを達成

🚀 HPLT MTリリースv1.0

このリポジトリには、OPUSとHPLTのデータを使用して学習されたアラビア語と英語の翻訳モデルが含まれています。このモデルは、MarianとHugging Faceの両方の形式で利用可能です。

✨ 主な機能

アラビア語と英語の翻訳を行うことができます。
MarianとHugging Faceの両方の形式で提供されています。

📦 インストール

このモデルは、MarianNMTを使用して学習されており、重みはMarian形式です。また、このモデルをHugging Face形式に変換しているので、transformersと互換性があります。

Marianを使用する場合

MarianNMTで推論を実行するには、GitHubリポジトリのInference/Decoding/Translationセクションを参照してください。このリポジトリからモデルファイルmodel.npz.best-chrf.npzと語彙ファイルmodel.ar-en.spmが必要です。

transformersを使用する場合

このモデルをHugging Face形式に変換しているので、以下のスクリプトで始めることができます。注意：重み変換に関する既知の問題のため、チェックポイントはtransformerバージョン<4.26または>4.30では動作しません。私たちはテストし、pip install transformers==4.28を推奨します。

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("HPLT/translate-ar-en-v1.0-hplt_opus")
model = AutoModelForSeq2SeqLM.from_pretrained("HPLT/translate-ar-en-v1.0-hplt_opus")

inputs = ["Input goes here.", "Make sure the language is right."]
batch_tokenized = tokenizer(inputs, return_tensors="pt", padding=True)
model_output = model.generate(
    **batch_tokenized, num_beams=6, max_new_tokens=512
)
batch_detokenized = tokenizer.batch_decode(
    model_output,
    skip_special_tokens=True,
)

print(batch_detokenized)

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("HPLT/translate-ar-en-v1.0-hplt_opus")
model = AutoModelForSeq2SeqLM.from_pretrained("HPLT/translate-ar-en-v1.0-hplt_opus")

inputs = ["Input goes here.", "Make sure the language is right."]
batch_tokenized = tokenizer(inputs, return_tensors="pt", padding=True)
model_output = model.generate(
    **batch_tokenized, num_beams=6, max_new_tokens=512
)
batch_detokenized = tokenizer.batch_decode(
    model_output,
    skip_special_tokens=True,
)

print(batch_detokenized)

📚 ドキュメント

モデル情報

プロパティ	詳細
モデルタイプ	Transformer-base
訓練データ	OPUSとHPLTのデータ
ソース言語	アラビア語
ターゲット言語	英語
トークナイザー	SentencePiece (Unigram)
クリーニング	OpusCleanerを一連の基本ルールで使用。詳細はこちらのフィルターファイルを参照。