🚀 法语 - 沃洛夫语(🇫🇷↔️🇸🇳)翻译模型 NLLB - 200
本模型是基于Meta的NLLB - 200(600M蒸馏版)微调而来,专门用于法语和沃洛夫语之间的翻译。它有效提升了这两种语言内容的可访问性,在跨文化交流、内容本地化等场景中发挥重要作用。
🚀 快速开始
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("Lahad/nllb200-francais-wolof")
model = AutoModelForSeq2SeqLM.from_pretrained("Lahad/nllb200-francais-wolof")
def translate(text, max_length=128):
inputs = tokenizer(
text,
max_length=max_length,
padding="max_length",
truncation=True,
return_tensors="pt"
)
outputs = model.generate(
input_ids=inputs["input_ids"],
attention_mask=inputs["attention_mask"],
forced_bos_token_id=tokenizer.convert_tokens_to_ids("wol_Latn"),
max_length=max_length
)
return tokenizer.decode(outputs[0], skip_special_tokens=True)
✨ 主要特性
直接用途
- 实现法语和沃洛夫语之间的文本翻译。
- 助力内容本地化工作。
- 辅助语言学习。
- 促进跨文化交流。
不适用场景
- 未经适当授权的商业使用。
- 高度技术化或专业化内容的翻译。
- 需要专业人工翻译的法律或医疗文件翻译。
- 实时语音翻译。
📚 详细文档
模型详情
模型描述
这是Meta的NLLB - 200(600M蒸馏版)的微调版本,专注于法语到沃洛夫语的翻译,旨在提升法语和沃洛夫语内容的可访问性。
- 开发者:Lahad
- 模型类型:序列到序列翻译模型
- 语言:法语(fr_Latn)↔️ 沃洛夫语(wol_Latn)
- 许可证:CC - BY - NC - 4.0
- 微调基础模型:facebook/nllb - 200 - distilled - 600M
模型来源
偏差、风险和局限性
- 语言多样性限制:
- 对沃洛夫语地区方言的覆盖有限。
- 可能无法有效处理文化细微差别。
- 技术限制:
- 最大上下文窗口为128个标记。
- 在技术/专业内容上性能下降。
- 可能难以处理非正式语言和俚语。
- 潜在偏差:
- 训练数据可能反映文化偏差。
- 在标准/正式语言上表现可能更好。
建议
- 用于一般交流和内容翻译。
- 对关键通信的翻译进行验证。
- 考虑地区语言差异。
- 对敏感内容进行人工审核。
- 在部署前在预期上下文中测试翻译。
训练详情
训练数据
- 数据集:galsenai/centralized_wolof_french_translation_data
- 划分:80%训练,20%测试
- 格式:法语和沃洛夫语翻译的JSON对
训练过程
预处理
- 动态分词并填充
- 最大序列长度:128个标记
- 源/目标语言标签:fr_Latn/wol_Latn
训练超参数
- 学习率:2e - 5
- 每设备批量大小:8
- 训练轮数:3
- 启用FP16训练
- 评估策略:每轮
评估
测试数据、因素和指标
环境影响
- 硬件类型:NVIDIA T4 GPU
- 使用时长:5小时
- 云服务提供商:[未指定]
- 计算区域:[未指定]
- 碳排放:[未计算]
技术规格
模型架构和目标
- 架构:NLLB - 200(600M蒸馏版)
- 目标:神经机器翻译
- 参数:6亿
- 上下文窗口:128个标记
计算基础设施
- 训练硬件:NVIDIA T4 GPU
- 训练时间:5小时
- 软件框架:Hugging Face Transformers
模型卡片联系信息
如有关于此模型的问题,请在模型的Hugging Face仓库中创建问题。
🔧 技术细节
信息表格
属性 |
详情 |
模型类型 |
序列到序列翻译模型 |
训练数据 |
数据集为galsenai/centralized_wolof_french_translation_data,80%用于训练,20%用于测试,格式为法语和沃洛夫语翻译的JSON对 |
训练硬件 |
NVIDIA T4 GPU |
训练时间 |
5小时 |
软件框架 |
Hugging Face Transformers |
模型架构 |
NLLB - 200(600M蒸馏版) |
目标 |
神经机器翻译 |
参数 |
6亿 |
上下文窗口 |
128个标记 |
训练过程细节
预处理
采用动态分词并填充的方式,最大序列长度设定为128个标记,源语言和目标语言分别使用fr_Latn和wol_Latn作为标签。
训练超参数
学习率设置为2e - 5,每设备批量大小为8,训练轮数为3,启用了FP16训练,评估策略为每轮进行评估。
评估细节
测试数据使用数据集的20%,评估指标主要关注翻译准确性、语义保留和语法正确性。
📄 许可证
本模型使用的许可证为CC - BY - NC - 4.0。