nllb-200-distilled-600M-wo-fr-enオープンソースモデル - ウォロフ語、フランス語、英語の正確な双方向翻訳

ホーム

Nllb 200 Distilled 600M Wo Fr En

bilalfayeによって開発

このモデルはNLLB-200-distilled-600Mをファインチューニングした多言語翻訳モデルで、ウォロフ語、フランス語、英語間の双方向翻訳に特化して最適化されています。

機械翻訳

Transformers

複数言語対応オープンソースライセンス:MIT #ウォロフ語翻訳 #多言語相互翻訳 #低リソース最適化

ダウンロード数 114

リリース時間 : 1/20/2025

モデル概要

このモデルはウォロフ語、フランス語、英語間の双方向翻訳をサポートし、ウォロフ語↔フランス語、ウォロフ語↔英語、フランス語↔英語の翻訳タスクを含みます。

モデル特徴

多言語双方向翻訳

ウォロフ語、フランス語、英語間の6つの翻訳方向をサポート

最適化された前処理データ

深度前処理済みのウォロフ語-フランス語-英語並列コーパスを使用してファインチューニング

効率的な推論

蒸留版NLLBモデルベースで、性能を維持しつつ推論効率を向上

モデル能力

ウォロフ語からフランス語への翻訳

フランス語からウォロフ語への翻訳

英語からウォロフ語への翻訳

ウォロフ語から英語への翻訳

フランス語から英語への翻訳

英語からフランス語への翻訳

使用事例

言語サービス

異言語間コミュニケーション

ウォロフ語話者とフランス語または英語話者の間の交流を支援

正確で流暢な日常会話翻訳を実現

文書翻訳

公式文書や教育資料をウォロフ語、フランス語、英語間で変換

専門用語の正確性と文脈の一貫性を保持

教育

言語学習支援

ウォロフ語、フランス語、英語を学ぶ学生が異言語間の対応関係を理解するのを支援

即時翻訳リファレンスを提供し、言語学習プロセスを加速

🚀 トランスフォーマーモデル

このモデルは、翻訳タスクに特化したモデルで、フランス語とウォロフ語、英語間の双方向翻訳をサポートしています。高精度な翻訳を実現するため、特定のデータセットで微調整されています。

🚀 クイックスタート

モデルの概要

このモデルは nllb - 200 - distilled - 600M を微調整したもので、フランス語とウォロフ語の相互翻訳に特化しています。bilalfaye/english - wolof - french - translation と bilalfaye/english - wolof - french - translation - bis のデータセットを使用して学習されており、翻訳品質を向上させるために高度な前処理が施されています。

このモデルは以下の双方向翻訳をサポートしています：

ウォロフ語からフランス語
フランス語からウォロフ語
英語からウォロフ語
ウォロフ語から英語
フランス語から英語
英語からフランス語

テストアプリケーションはこちら: https://huggingface.co/spaces/bilalfaye/WoFrEn - Translator

使い方

手動での推論

必要なライブラリをインストールします：

!pip install transformers

翻訳用のPythonコードは以下の通りです：

from transformers import NllbTokenizer, AutoModelForSeq2SeqLM
import torch

device = "cuda" if torch.cuda.is_available() else "cpu"
model_load_name = 'bilalfaye/nllb-200-distilled-600M-wo-fr-en'

# モデルとトークナイザーをロード
model = AutoModelForSeq2SeqLM.from_pretrained(model_load_name).to(device)
tokenizer = NllbTokenizer.from_pretrained(model_load_name)

def translate(
    text, src_lang='wol_Latn', tgt_lang='french_Latn',
    a=32, b=3, max_input_length=1024, num_beams=4, **kwargs
):
    """テキストまたはテキストのリストを翻訳のリストに変換する"""
    tokenizer.src_lang = src_lang
    tokenizer.tgt_lang = tgt_lang
    inputs = tokenizer(
        text, return_tensors='pt', padding=True, truncation=True,
        max_length=max_input_length
    )
    model.eval()
    result = model.generate(
        **inputs.to(model.device),
        forced_bos_token_id=tokenizer.convert_tokens_to_ids(tgt_lang),
        max_new_tokens=int(a + b * inputs.input_ids.shape[1]),
        num_beams=num_beams, **kwargs
    )
    return tokenizer.batch_decode(result, skip_special_tokens=True)

# 使用例
print(translate("Ndax mën nga ko waxaat su la neexee?", src_lang="wol_Latn", tgt_lang="french_Latn")[0])
print(translate("Ndax mën nga ko waxaat su la neexee?", src_lang="wol_Latn", tgt_lang="eng_Latn")[0])
print(translate("Bonjour, où allez-vous?", src_lang="fra_Latn", tgt_lang="wol_Latn")[0])
print(translate("Bonjour, où allez-vous?", src_lang="fra_Latn", tgt_lang="eng_Latn")[0])
print(translate("Hello, how are you?", src_lang="eng_Latn", tgt_lang="wol_Latn")[0])
print(translate("Hello, how are you?", src_lang="eng_Latn", tgt_lang="fr_Latn")[0])

パイプラインを使用した推論

必要なライブラリをインストールします：

!pip install transformers

パイプラインを使用したPythonコードは以下の通りです：

from transformers import pipeline

model_name = 'bilalfaye/nllb-200-distilled-600M-wo-fr-en'
device = "cuda" if torch.cuda.is_available() else "cpu"

translator = pipeline("translation", model=model_name, device=device)

print(translator("Ndax mën nga ko waxaat su la neexee?", src_lang="wol_Latn", tgt_lang="fra_Latn")[0]['translation_text'])
print(translator("Bonjour, où allez-vous?", src_lang="fra_Latn", tgt_lang="wol_Latn")[0]['translation_text'])