🚀 Dorna2-Llama3.1-8B-Instruct模型
Dorna2-Llama3.1-8B-Instruct是由Part AI开发的解码器模型,基于波斯语数据进行训练和微调。它以Meta Llama 3.1 Instruct为基础模型,为波斯语相关任务提供了强大的支持。
🚀 快速开始
- 若要在Hugging Face Spaces上免费测试和使用该模型,请点击此处!
- 你也可以使用Transformers的Auto类和
generate()
函数进行对话推理。以下是一个示例:
import torch
import transformers
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
model_path,
torch_dtype=torch.bfloat16,
device_map="auto",
)
messages = [
{"role": "system",
"content": "You are a helpful Persian assistant. Please answer questions in the asked language."},
{"role": "user", "content": "کاغذ A4 بزرگ تر است یا A5؟"},
]
input_ids = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
terminators = [
tokenizer.eos_token_id,
tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = model.generate(
input_ids,
max_new_tokens=256,
eos_token_id=terminators,
do_sample=True,
temperature=0.3,
top_p=0.85,
)
response = outputs[0][input_ids.shape[-1]:]
print(tokenizer.decode(response, skip_special_tokens=True))
你还可以使用下面的笔记本在Google Colab中测试该模型。

✨ 主要特性
- 多语言支持:支持英语和波斯语。
- 特定领域优化:针对波斯语数据进行了专门的训练和微调,在波斯语相关任务上表现出色。
📚 详细文档
评估
对比评估
此评估对比了Dorna2-Llama3.1-8B-Instruct、Llama3.1-8B-Instruct和其他微调后的Llama3.1-8B模型。如需对各种大语言模型(LLM)进行更广泛的比较,请参考Open Persian LLM Leaderboard,该排行榜提供了跨多个LLM的全面评估。
任务和评估框架
精心挑选了五项专门任务来评估和基准测试这些模型。每个任务都旨在挑战模型能力的不同方面,这些任务包括:
- Part Multiple Choice:以多项选择的形式聚焦于常识和推理。
- ARC Easy:测试简单级别的常识。
- ARC Challenge:评估模型应对需要高级推理的难题的能力。
- MMLU Pro:涵盖专业级考试。
- AUT Multiple Choice Persian:专门的波斯语考试。
每个数据集均为波斯语,为非英语环境下的LLM提供了独特而强大的测试平台。这些数据集总共包含超过40k个样本,涵盖了常识、推理、总结和专业考试等各种语言和技术挑战。
评估结果
模型 |
平均准确率 |
Part Multiple Choice |
ARC Easy |
ARC Challenge |
MMLU Pro |
AUT Multiple Choice Persian |
PartAI/Dorna2-Llama3.1-8B-Instruct |
50.72 |
34.48 |
79.59 |
64.42 |
21.47 |
53.64 |
O1-OPEN/OpenO1-LLama-8B-v0.1 |
50.22 |
34.66 |
77.87 |
63.08 |
21.24 |
54.24 |
meta-llama/Llama-3.1-8B-Instruct |
50.14 |
36.68 |
78.40 |
60.40 |
21.00 |
54.24 |
NousResearch/Hermes-3-Llama-3.1-8B |
48.77 |
35.01 |
77.01 |
58.39 |
21.00 |
52.46 |
Skywork/Skywork-o1-Open-Llama-3.1-8B |
34.15 |
27.02 |
47.12 |
41.61 |
14.55 |
40.43 |
📄 许可证
该模型使用的许可证为llama3.1。
联系我们
如果你对该模型有任何疑问,可以通过Hugging Face上的社区与我们取得联系。