nllb-200-distilled-600M-wo-fr-en開源模型 - 精準雙向翻譯沃洛夫語、法語和英語

首頁

Nllb 200 Distilled 600M Wo Fr En

由bilalfaye開發

該模型是基於NLLB-200-distilled-600M微調的多語言翻譯模型，專門優化沃洛夫語、法語和英語之間的雙向翻譯。

機器翻譯

Transformers

支持多種語言開源協議:MIT #沃洛夫語翻譯 #多語言互譯 #低資源優化

下載量 114

發布時間 : 1/20/2025

模型概述

該模型支持沃洛夫語、法語和英語之間的雙向翻譯，包括沃洛夫語↔法語、沃洛夫語↔英語和法語↔英語的翻譯任務。

模型特點

多語言雙向翻譯

支持沃洛夫語、法語和英語之間的六種翻譯方向

優化預處理數據

使用經過深度預處理的沃洛夫語-法語-英語平行語料庫進行微調

高效推理

基於蒸餾版NLLB模型，在保持性能的同時提高推理效率

模型能力

沃洛夫語到法語翻譯

法語到沃洛夫語翻譯

英語到沃洛夫語翻譯

沃洛夫語到英語翻譯

法語到英語翻譯

英語到法語翻譯

使用案例

語言服務

跨語言溝通

幫助沃洛夫語使用者與法語或英語使用者進行交流

實現準確流暢的日常對話翻譯

文檔翻譯

將官方文件或教育材料在沃洛夫語、法語和英語之間轉換

保持專業術語的準確性和上下文一致性

教育

語言學習輔助

幫助學習沃洛夫語、法語或英語的學生理解不同語言之間的對應關係

提供即時翻譯參考，加速語言學習過程

🚀 翻譯模型

本模型是一款專為法語 - 沃洛夫語以及沃洛夫語 - 法語翻譯而優化的模型。它基於 nllb - 200 - distilled - 600M 進行微調，使用了 bilalfaye/english - wolof - french - translation 和 bilalfaye/english - wolof - french - translation - bis 數據集進行訓練，這些數據集經過了大量預處理，以提高翻譯質量。

支持語言

該模型支持以下雙向翻譯：

沃洛夫語到法語
法語到沃洛夫語
英語到沃洛夫語
沃洛夫語到英語
法語到英語
英語到法語

測試應用鏈接：https://huggingface.co/spaces/bilalfaye/WoFrEn - Translator

🚀 快速開始

✨ 主要特性

基於 nllb - 200 - distilled - 600M 微調，適用於多種語言對的翻譯。
支持雙向翻譯，涵蓋沃洛夫語、法語和英語。
經過數據集預處理，提升翻譯質量。

📦 安裝指南

安裝所需庫：

!pip install transformers

💻 使用示例

基礎用法

手動推理：

from transformers import NllbTokenizer, AutoModelForSeq2SeqLM
import torch

device = "cuda" if torch.cuda.is_available() else "cpu"
model_load_name = 'bilalfaye/nllb-200-distilled-600M-wo-fr-en'

# Load model and tokenizer
model = AutoModelForSeq2SeqLM.from_pretrained(model_load_name).to(device)
tokenizer = NllbTokenizer.from_pretrained(model_load_name)

def translate(
    text, src_lang='wol_Latn', tgt_lang='french_Latn',
    a=32, b=3, max_input_length=1024, num_beams=4, **kwargs
):
    """Turn a text or a list of texts into a list of translations"""
    tokenizer.src_lang = src_lang
    tokenizer.tgt_lang = tgt_lang
    inputs = tokenizer(
        text, return_tensors='pt', padding=True, truncation=True,
        max_length=max_input_length
    )
    model.eval()
    result = model.generate(
        **inputs.to(model.device),
        forced_bos_token_id=tokenizer.convert_tokens_to_ids(tgt_lang),
        max_new_tokens=int(a + b * inputs.input_ids.shape[1]),
        num_beams=num_beams, **kwargs
    )
    return tokenizer.batch_decode(result, skip_special_tokens=True)

# Example usage
print(translate("Ndax mën nga ko waxaat su la neexee?", src_lang="wol_Latn", tgt_lang="french_Latn")[0])
print(translate("Ndax mën nga ko waxaat su la neexee?", src_lang="wol_Latn", tgt_lang="eng_Latn")[0])
print(translate("Bonjour, où allez-vous?", src_lang="fra_Latn", tgt_lang="wol_Latn")[0])
print(translate("Bonjour, où allez-vous?", src_lang="fra_Latn", tgt_lang="eng_Latn")[0])
print(translate("Hello, how are you?", src_lang="eng_Latn", tgt_lang="wol_Latn")[0])
print(translate("Hello, how are you?", src_lang="eng_Latn", tgt_lang="fr_Latn")[0])

高級用法

使用管道進行推理：

from transformers import pipeline

model_name = 'bilalfaye/nllb-200-distilled-600M-wo-fr-en'
device = "cuda" if torch.cuda.is_available() else "cpu"

translator = pipeline("translation", model=model_name, device=device)

print(translator("Ndax mën nga ko waxaat su la neexee?", src_lang="wol_Latn", tgt_lang="fra_Latn")[0]['translation_text'])
print(translator("Bonjour, où allez-vous?", src_lang="fra_Latn", tgt_lang="wol_Latn")[0]['translation_text'])

📚 詳細文檔

信息表格

屬性	詳情
模型類型	基於 nllb - 200 - distilled - 600M 微調的翻譯模型
訓練數據	bilalfaye/english - wolof - french - translation 和 bilalfaye/english - wolof - french - translation - bis 數據集
支持語言	沃洛夫語（wo）、法語（fr）、英語（en）
評估指標	BLEU、CHRF
基礎模型	facebook/nllb - 200 - distilled - 600M
任務類型	翻譯