🚀 法語 - 沃洛夫語(🇫🇷↔️🇸🇳)翻譯模型 NLLB - 200
本模型是基於Meta的NLLB - 200(600M蒸餾版)微調而來,專門用於法語和沃洛夫語之間的翻譯。它有效提升了這兩種語言內容的可訪問性,在跨文化交流、內容本地化等場景中發揮重要作用。
🚀 快速開始
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("Lahad/nllb200-francais-wolof")
model = AutoModelForSeq2SeqLM.from_pretrained("Lahad/nllb200-francais-wolof")
def translate(text, max_length=128):
inputs = tokenizer(
text,
max_length=max_length,
padding="max_length",
truncation=True,
return_tensors="pt"
)
outputs = model.generate(
input_ids=inputs["input_ids"],
attention_mask=inputs["attention_mask"],
forced_bos_token_id=tokenizer.convert_tokens_to_ids("wol_Latn"),
max_length=max_length
)
return tokenizer.decode(outputs[0], skip_special_tokens=True)
✨ 主要特性
直接用途
- 實現法語和沃洛夫語之間的文本翻譯。
- 助力內容本地化工作。
- 輔助語言學習。
- 促進跨文化交流。
不適用場景
- 未經適當授權的商業使用。
- 高度技術化或專業化內容的翻譯。
- 需要專業人工翻譯的法律或醫療文件翻譯。
- 即時語音翻譯。
📚 詳細文檔
模型詳情
模型描述
這是Meta的NLLB - 200(600M蒸餾版)的微調版本,專注於法語到沃洛夫語的翻譯,旨在提升法語和沃洛夫語內容的可訪問性。
- 開發者:Lahad
- 模型類型:序列到序列翻譯模型
- 語言:法語(fr_Latn)↔️ 沃洛夫語(wol_Latn)
- 許可證:CC - BY - NC - 4.0
- 微調基礎模型:facebook/nllb - 200 - distilled - 600M
模型來源
偏差、風險和侷限性
- 語言多樣性限制:
- 對沃洛夫語地區方言的覆蓋有限。
- 可能無法有效處理文化細微差別。
- 技術限制:
- 最大上下文窗口為128個標記。
- 在技術/專業內容上性能下降。
- 可能難以處理非正式語言和俚語。
- 潛在偏差:
- 訓練數據可能反映文化偏差。
- 在標準/正式語言上表現可能更好。
建議
- 用於一般交流和內容翻譯。
- 對關鍵通信的翻譯進行驗證。
- 考慮地區語言差異。
- 對敏感內容進行人工審核。
- 在部署前在預期上下文中測試翻譯。
訓練詳情
訓練數據
- 數據集:galsenai/centralized_wolof_french_translation_data
- 劃分:80%訓練,20%測試
- 格式:法語和沃洛夫語翻譯的JSON對
訓練過程
預處理
- 動態分詞並填充
- 最大序列長度:128個標記
- 源/目標語言標籤:fr_Latn/wol_Latn
訓練超參數
- 學習率:2e - 5
- 每設備批量大小:8
- 訓練輪數:3
- 啟用FP16訓練
- 評估策略:每輪
評估
測試數據、因素和指標
環境影響
- 硬件類型:NVIDIA T4 GPU
- 使用時長:5小時
- 雲服務提供商:[未指定]
- 計算區域:[未指定]
- 碳排放:[未計算]
技術規格
模型架構和目標
- 架構:NLLB - 200(600M蒸餾版)
- 目標:神經機器翻譯
- 參數:6億
- 上下文窗口:128個標記
計算基礎設施
- 訓練硬件:NVIDIA T4 GPU
- 訓練時間:5小時
- 軟件框架:Hugging Face Transformers
模型卡片聯繫信息
如有關於此模型的問題,請在模型的Hugging Face倉庫中創建問題。
🔧 技術細節
信息表格
屬性 |
詳情 |
模型類型 |
序列到序列翻譯模型 |
訓練數據 |
數據集為galsenai/centralized_wolof_french_translation_data,80%用於訓練,20%用於測試,格式為法語和沃洛夫語翻譯的JSON對 |
訓練硬件 |
NVIDIA T4 GPU |
訓練時間 |
5小時 |
軟件框架 |
Hugging Face Transformers |
模型架構 |
NLLB - 200(600M蒸餾版) |
目標 |
神經機器翻譯 |
參數 |
6億 |
上下文窗口 |
128個標記 |
訓練過程細節
預處理
採用動態分詞並填充的方式,最大序列長度設定為128個標記,源語言和目標語言分別使用fr_Latn和wol_Latn作為標籤。
訓練超參數
學習率設置為2e - 5,每設備批量大小為8,訓練輪數為3,啟用了FP16訓練,評估策略為每輪進行評估。
評估細節
測試數據使用數據集的20%,評估指標主要關注翻譯準確性、語義保留和語法正確性。
📄 許可證
本模型使用的許可證為CC - BY - NC - 4.0。