🚀 NLLB-200 フランス語 - ウォロフ語 (🇫🇷↔️🇸🇳) 翻訳モデル
このモデルは、MetaのNLLB - 200 (600M distilled) モデルをファインチューニングしたもので、フランス語とウォロフ語間のコンテンツのアクセシビリティ向上を目的として開発されました。
🚀 クイックスタート
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("Lahad/nllb200-francais-wolof")
model = AutoModelForSeq2SeqLM.from_pretrained("Lahad/nllb200-francais-wolof")
def translate(text, max_length=128):
inputs = tokenizer(
text,
max_length=max_length,
padding="max_length",
truncation=True,
return_tensors="pt"
)
outputs = model.generate(
input_ids=inputs["input_ids"],
attention_mask=inputs["attention_mask"],
forced_bos_token_id=tokenizer.convert_tokens_to_ids("wol_Latn"),
max_length=max_length
)
return tokenizer.decode(outputs[0], skip_special_tokens=True)
✨ 主な機能
- フランス語とウォロフ語間のテキスト翻訳
- コンテンツのローカライズ
- 言語学習支援
- 異文化コミュニケーション
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
📚 ドキュメント
モデルの詳細
モデルの説明
MetaのNLLB - 200 (600M distilled) モデルをファインチューニングしたバージョンで、フランス語からウォロフ語への翻訳に特化しています。このモデルは、フランス語とウォロフ語間のコンテンツのアクセシビリティ向上のためにトレーニングされました。
属性 |
详情 |
開発者 |
Lahad |
モデルタイプ |
シーケンス-to-シーケンス翻訳モデル |
言語 |
フランス語 (fr_Latn) ↔️ ウォロフ語 (wol_Latn) |
ライセンス |
CC - BY - NC - 4.0 |
ファインチューニング元のモデル |
facebook/nllb - 200 - distilled - 600M |
モデルのソース
- リポジトリ: [Hugging Face - Lahad/nllb200 - francais - wolof](https://huggingface.co/Lahad/nllb200 - francais - wolof)
- GitHub: [Fine - tuning NLLB - 200 for French - Wolof](https://github.com/LahadMbacke/Fine - tuning_facebook - nllb - 200 - distilled - 600M_French_to_Wolof)
使用方法
直接使用
- フランス語とウォロフ語間のテキスト翻訳
- コンテンツのローカライズ
- 言語学習支援
- 異文化コミュニケーション
適用外の使用
- 適切なライセンスなしの商用利用
- 高度な技術的または専門的なコンテンツの翻訳
- 専門的な人間の翻訳が必要な法的または医療文書の翻訳
- リアルタイムの音声翻訳
バイアス、リスク、制限事項
-
言語の多様性の制限
- 地域的なウォロフ語の方言のカバレッジが限られています。
- 文化的なニュアンスを効果的に扱えない場合があります。
-
技術的な制限
- 最大コンテキストウィンドウは128トークンです。
- 技術的/専門的なコンテンツでは性能が低下します。
- 非公式な言語やスラングの扱いに苦労する場合があります。
-
潜在的なバイアス
- トレーニングデータには文化的なバイアスが反映されている可能性があります。
- 標準的/正式な言語での性能が良い場合があります。
推奨事項
⚠️ 重要提示
このモデルは、一般的なコミュニケーションやコンテンツの翻訳に使用することを推奨します。重要なコミュニケーションの翻訳は必ず検証してください。
💡 使用建议
地域の言語のバリエーションを考慮し、機密性の高いコンテンツには人間のレビューを導入してください。デプロイ前に目的のコンテキストで翻訳をテストしてください。
トレーニングの詳細
トレーニングデータ
- データセット: galsenai/centralized_wolof_french_translation_data
- 分割: 80% トレーニング、20% テスト
- 形式: フランス語とウォロフ語の翻訳のJSONペア
トレーニング手順
前処理
- パディングを伴う動的トークン化
- 最大シーケンス長: 128トークン
- ソース/ターゲット言語タグ: fr_Latn/wol_Latn
トレーニングハイパーパラメータ
- 学習率: 2e - 5
- バッチサイズ: デバイスごとに8
- トレーニングエポック: 3
- FP16トレーニング: 有効
- 評価戦略: エポックごと
評価
テストデータ、要因、メトリクス
- テストデータ: データセットの20%
- メトリクス:
- 評価要因:
環境への影響
- ハードウェアタイプ: NVIDIA T4 GPU
- 使用時間: 5時間
- クラウドプロバイダー: [未指定]
- コンピュートリージョン: [未指定]
- 排出された二酸化炭素量: [未計算]
技術仕様
モデルアーキテクチャと目的
- アーキテクチャ: NLLB - 200 (Distilled 600M version)
- 目的: ニューラル機械翻訳
- パラメータ: 600M
- コンテキストウィンドウ: 128トークン
コンピュートインフラストラクチャ
- トレーニングハードウェア: NVIDIA T4 GPU
- トレーニング時間: 5時間
- ソフトウェアフレームワーク: Hugging Face Transformers
モデルカードの問い合わせ
このモデルに関する質問は、モデルのHugging Faceリポジトリにイシューを作成してください。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。