Terjman-Large-v2.0オープンソース翻訳モデル - 無料で英語とモロッコ方言の効率的な相互翻訳を実現

ホーム

Terjman Large V2.0

BounharAbdelazizによって開発

テルジャマン大型-v2.0はTransformerアーキテクチャに基づく英語-モロッコ方言翻訳モデルで、性能が大幅に向上し、商用モデルと同等のパフォーマンスを発揮します。

機械翻訳

Transformers

複数言語対応#英語-モロッコ方言翻訳 #文化的配慮のある翻訳 #Transformerアーキテクチャ

ダウンロード数 20

リリース時間 : 2/2/2025

モデル概要

高品質で正確な翻訳のために特別に調整されたモデルで、特に英語からモロッコ方言への翻訳タスクに優れています。

モデル特徴

英語→モロッコ方言翻訳に特化

英語からモロッコ方言への高品質な翻訳タスクに焦点を当てています

オープンソースモデルにおけるトップクラスの性能

オープンソースモデルの中で優れた性能を発揮し、一部の商用モデルと同等の性能を持ちます

🤗 Transformersとの完全互換

様々なハードウェア環境に簡単に展開可能

モデル能力

英語からモロッコ方言への翻訳

高品質なテキスト変換

文化的なニュアンスを正確に表現

使用事例

言語翻訳

日常会話の翻訳

英語の日常会話をモロッコ方言に翻訳

文化的文脈を考慮した自然な表現を維持

コンテンツのローカライズ

英語コンテンツをモロッコ方言バージョンにローカライズ

文化的関連性と正確性を確保

🚀 🇲🇦 Terjman-Large-v2.0 (240M)

Terjman-Large-v2.0 は atlasia/Terjman-Large-v1.2 の改良版で、強力なTransformerアーキテクチャに基づいて構築され、高品質で正確な翻訳 のためにファインチューニングされています。

このバージョンは atlasia/Terjman-Large-v1.2 をベースに、より大規模で洗練されたデータセット で学習されており、翻訳性能が向上しています。このモデルは、英語とモロッコ・ダリジャ語の翻訳モデルの評価ベンチマークである TerjamaBench で、gpt-4o-2024-08-06 と同等の結果 を達成しています。このベンチマークは、モデルに対して文化的な側面でより高い要求を課しています。

🚀 主な機能

✅ 英語からモロッコ・ダリジャ語への翻訳用にファインチューニングされています。 ✅ オープンソースモデルの中で最先端の性能を発揮します。 ✅ 🤗 Transformers と互換性があり、様々なハードウェア構成で簡単にデプロイできます。

🔥 性能比較

以下の表は、BLEU、chrF、TERのスコアを使用して、Terjman-Large-v2.0 を独自モデルとオープンソースモデルと比較しています。BLEU/chrF の値が高く、TER の値が低いほど、翻訳品質が高いことを示します。

モデル	サイズ	BLEU↑	chrF↑	TER↓
独自モデル
gemini-exp-1206	*	30.69	54.16	67.62
claude-3-5-sonnet-20241022	*	30.51	51.80	67.42
gpt-4o-2024-08-06	*	28.30	50.13	71.77
オープンソースモデル
Terjman-Ultra-v2.0	1.3B	25.00	44.70	77.20
Terjman-Supreme-v2.0	3.3B	23.43	44.57	78.17
Terjman-Large-v2.0 (このモデル)	240M	22.67	42.57	83.00
Terjman-Nano-v2.0	77M	18.84	38.41	94.73
atlasia/Terjman-Large-v1.2.2	240M	16.33	37.10	89.13
MBZUAI-Paris/Atlas-Chat-9B	9B	14.80	35.26	93.95
facebook/nllb-200-3.3B	3.3B	14.76	34.17	94.33
atlasia/Terjman-Nano	77M	09.98	26.55	106.49

🔬 モデルの詳細

属性	详情
ベースモデル	atlasia/Terjman-Large-v1.2
アーキテクチャ	Transformerベースのシーケンス-to-シーケンスモデル
学習データ	高品質の翻訳を持つ並列コーパス
学習精度	効率的な推論のためのFP16

💻 使用例

基本的な使用法

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

model_name = "BounharAbdelaziz/Terjman-Large-v2.0"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

def translate(text):
    inputs = tokenizer(text, return_tensors="pt")
    output = model.generate(**inputs)
    return tokenizer.decode(output[0], skip_special_tokens=True)

# Example translation
text = "Hello there! Today the weather is so nice in Geneva, couldn't ask for more to enjoy the holidays :)"
translation = translate(text)
print("Translation:", translation)
# prints: صباح الخير! اليوم الطقس زوين بزاف فجنيف، ما قدرتش نطلب المزيد باش نستمتعو بالعطل:)

🖥️ デプロイ方法

Hugging Face Spaceで実行

Terjman-Large Space でモデルを対話的に試すことができます 🤗

Text Generation Inference (TGI) を使用する

高速な推論のために、Hugging Face TGI を使用します。

pip install text-generation
text-generation-launcher --model-id BounharAbdelaziz/Terjman-Large-v2.0

Transformers と PyTorch でローカルで実行

pip install transformers torch
python -c "from transformers import pipeline; print(pipeline('translation', model='BounharAbdelaziz/Terjman-Large-v2.0')('Hello there!'))"

APIサーバーにデプロイする

FastAPI を使用して、翻訳をAPIとして提供します。

from fastapi import FastAPI
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

app = FastAPI()
model_name = "BounharAbdelaziz/Terjman-Large-v2.0"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

@app.get("/translate/")
def translate(text: str):
    inputs = tokenizer(text, return_tensors="pt")
    output = model.generate(**inputs)
    return {"translation": tokenizer.decode(output[0], skip_special_tokens=True)}

🛠️ 学習の詳細とハイパーパラメータ

このモデルは、以下の学習設定を使用してファインチューニングされています。

学習率: 0.001
学習バッチサイズ: 16
評価バッチサイズ: 16
シード: 42
勾配累積ステップ: 8
総有効バッチサイズ: 128
オプティマイザー: AdamW (Torch) (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラー: Linear
ウォームアップ率: 0.1
エポック数: 2
精度: 効率的な学習のための Mixed FP16

フレームワークのバージョン

Transformers 4.47.1
Pytorch 2.5.1+cu124
Datasets 3.1.0
Tokenizers 0.21.0

📄 ライセンス

このモデルは CC BY-NC (Creative Commons Attribution-NonCommercial) ライセンスの下で公開されています。つまり、研究や個人プロジェクトでの使用は許可されていますが、商用目的での使用は許可されていません。商用利用については、ご連絡ください :)

@misc{terjman-v2,
  title = {Terjman-v2: High-Quality English-Moroccan Darija Translation Model},
  author={Abdelaziz Bounhar},
  year={2025},
  howpublished = {\url{https://huggingface.co/BounharAbdelaziz/Terjman-Large-v2.0}},
  license = {CC BY-NC}
}