Terjman-Large-v2.0开源翻译模型 - 免费实现英语与摩洛哥方言高效互译

首页

Terjman Large V2.0

由 BounharAbdelaziz 开发

泰尔曼大型-v2.0是基于Transformer架构的英语-摩洛哥方言翻译模型，性能显著提升，与商业模型表现相当。

机器翻译

Transformers

支持多种语言#英语-摩洛哥方言翻译 #文化敏感翻译 #Transformer架构

下载量 20

发布时间 : 2/2/2025

模型简介

专为高质量精准翻译而微调的模型，特别擅长英语到摩洛哥方言的翻译任务。

模型特点

专精英语→摩洛哥方言翻译

专注于英语到摩洛哥方言的高质量翻译任务

开源模型中的顶尖性能

在开源模型中表现优异，与部分商业模型性能相当

完美兼容🤗 Transformers

轻松部署于各类硬件环境

模型能力

英语到摩洛哥方言翻译

高质量文本转换

文化层面精准表达

使用案例

语言翻译

日常对话翻译

将英语日常对话翻译成摩洛哥方言

保持文化语境下的自然表达

内容本地化

将英语内容本地化为摩洛哥方言版本

确保文化相关性和准确性

🚀 🇲🇦 泰尔吉曼大模型 v2.0 (240M)

泰尔吉曼大模型 v2.0 是 atlasia/Terjman-Large-v1.2 的改进版本，它基于强大的 Transformer 架构构建，并针对高质量、准确的翻译进行了微调。

此版本基于 atlasia/Terjman-Large-v1.2，并在一个更大、更精细的数据集上进行了训练，从而提升了翻译性能。该模型在 TerjamaBench（一个用于英语 - 摩洛哥达里杰语翻译模型的评估基准，更侧重于在文化方面挑战模型）上取得了与 gpt-4o-2024-08-06 相当的成绩。

✨ 主要特性

✅ 针对英语到摩洛哥达里杰语翻译进行微调。
✅ 在开源模型中达到了最先进的性能。
✅ 与 🤗 Transformers 兼容，并且可以轻松部署在各种硬件环境中。

📈 性能对比

下表使用 BLEU、chrF 和 TER 分数，将 泰尔吉曼大模型 v2.0 与专有模型和开源模型进行了对比。更高的 BLEU/chrF 分数和更低的 TER 分数表示更好的翻译质量。

模型	大小	BLEU↑	chrF↑	TER↓
专有模型
gemini-exp-1206	*	30.69	54.16	67.62
claude-3-5-sonnet-20241022	*	30.51	51.80	67.42
gpt-4o-2024-08-06	*	28.30	50.13	71.77
开源模型
Terjman-Ultra-v2.0	1.3B	25.00	44.70	77.20
Terjman-Supreme-v2.0	3.3B	23.43	44.57	78.17
泰尔吉曼大模型 v2.0 (本模型)	240M	22.67	42.57	83.00
Terjman-Nano-v2.0	77M	18.84	38.41	94.73
atlasia/Terjman-Large-v1.2.2	240M	16.33	37.10	89.13
MBZUAI-Paris/Atlas-Chat-9B	9B	14.80	35.26	93.95
facebook/nllb-200-3.3B	3.3B	14.76	34.17	94.33
atlasia/Terjman-Nano	77M	09.98	26.55	106.49

🔧 技术细节

属性	详情
基础模型	atlasia/Terjman-Large-v1.2
模型类型	基于 Transformer 的序列到序列模型
训练数据	具有高质量翻译的平行语料库
训练精度	FP16，用于高效推理

💻 使用示例

基础用法

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

model_name = "BounharAbdelaziz/Terjman-Large-v2.0"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

def translate(text):
    inputs = tokenizer(text, return_tensors="pt")
    output = model.generate(**inputs)
    return tokenizer.decode(output[0], skip_special_tokens=True)

# Example translation
text = "Hello there! Today the weather is so nice in Geneva, couldn't ask for more to enjoy the holidays :)"
translation = translate(text)
print("Translation:", translation)
# prints: صباح الخير! اليوم الطقس زوين بزاف فجنيف، ما قدرتش نطلب المزيد باش نستمتعو بالعطل:)

🚀 部署方式

在 Hugging Face 空间中运行

可以在 Terjman-Large 空间中交互式地试用该模型 🤗。

使用文本生成推理 (TGI)

为了实现快速推理，可以使用 Hugging Face TGI：

pip install text-generation
text-generation-launcher --model-id BounharAbdelaziz/Terjman-Large-v2.0

使用 Transformers 和 PyTorch 在本地运行

pip install transformers torch
python -c "from transformers import pipeline; print(pipeline('translation', model='BounharAbdelaziz/Terjman-Large-v2.0')('Hello there!'))"

在 API 服务器上部署

可以使用 FastAPI 将翻译服务作为 API 提供：

from fastapi import FastAPI
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

app = FastAPI()
model_name = "BounharAbdelaziz/Terjman-Large-v2.0"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

@app.get("/translate/")
def translate(text: str):
    inputs = tokenizer(text, return_tensors="pt")
    output = model.generate(**inputs)
    return {"translation": tokenizer.decode(output[0], skip_special_tokens=True)}

🔧 训练细节（超参数）

该模型使用以下训练设置进行微调：

学习率：0.001
训练批次大小：16
评估批次大小：16
随机种子：42
梯度累积步数：8
总有效批次大小：128
优化器：AdamW (Torch)，betas=(0.9, 0.999)，epsilon=1e-08
学习率调度器：Linear
预热比例：0.1
训练轮数：2
精度：混合 FP16，用于高效训练

框架版本

Transformers 4.47.1
Pytorch 2.5.1+cu124
Datasets 3.1.0
Tokenizers 0.21.0

📄 许可证

此模型根据 CC BY - NC（知识共享署名 - 非商业性使用） 许可证发布，这意味着它可用于研究和个人项目，但不能用于商业目的。如需商业使用，请联系我们。

@misc{terjman-v2,
  title = {Terjman-v2: High-Quality English-Moroccan Darija Translation Model},
  author={Abdelaziz Bounhar},
  year={2025},
  howpublished = {\url{https://huggingface.co/BounharAbdelaziz/Terjman-Large-v2.0}},
  license = {CC BY-NC}
}