Dorna2-Llama3.1-8B-Instruct开源大语言模型 - 波斯语交流场景免费好帮手

首页

Dorna2 Llama3.1 8B Instruct

由 PartAI 开发

Dorna2-Llama3.1-8B-Instruct是由Part AI开发的基于Meta Llama 3.1 Instruct的8B参数大语言模型，专门针对波斯语进行了优化。

大型语言模型

Transformers

支持多种语言#波斯语优化 #多轮对话 #指令微调

下载量 844

发布时间 : 12/3/2024

模型简介

该模型是基于Meta Llama 3.1 Instruct架构开发的波斯语优化版本，专注于指令跟随和对话任务，支持英语和波斯语双语处理。

模型特点

波斯语优化

专门针对波斯语数据进行了训练和微调，在波斯语任务上表现优异

双语支持

同时支持英语和波斯语处理，可根据用户提问语言自动切换

指令优化

针对指令跟随任务进行了专门优化，能更好地理解并执行复杂指令

模型能力

文本生成

多轮对话

双语处理

常识推理

专业领域问答

使用案例

智能助手

波斯语客服助手

为波斯语用户提供客户服务支持

在波斯语选择题测试中获得53.64%准确率

教育应用

语言学习助手

帮助用户学习波斯语和英语

🚀 Dorna2-Llama3.1-8B-Instruct模型

Dorna2-Llama3.1-8B-Instruct是由Part AI开发的解码器模型，基于波斯语数据进行训练和微调。它以Meta Llama 3.1 Instruct为基础模型，为波斯语相关任务提供了强大的支持。

🚀 快速开始

若要在Hugging Face Spaces上免费测试和使用该模型，请点击此处！
你也可以使用Transformers的Auto类和generate()函数进行对话推理。以下是一个示例：

import torch
import transformers
from transformers import AutoTokenizer, AutoModelForCausalLM


tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

messages = [
    {"role": "system",
     "content": "You are a helpful Persian assistant. Please answer questions in the asked language."},
    {"role": "user", "content": "Ú©Ø§ØºØ° A4 Ø¨Ø²Ø±Ú¯ ØªØ± Ø§Ø³Øª ÛŒØ§ A5ØŸ"},
]

input_ids = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = model.generate(
    input_ids,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.3,
    top_p=0.85,
)
response = outputs[0][input_ids.shape[-1]:]
print(tokenizer.decode(response, skip_special_tokens=True))

你还可以使用下面的笔记本在Google Colab中测试该模型。

✨ 主要特性

多语言支持：支持英语和波斯语。
特定领域优化：针对波斯语数据进行了专门的训练和微调，在波斯语相关任务上表现出色。

📚 详细文档

评估

对比评估

此评估对比了Dorna2-Llama3.1-8B-Instruct、Llama3.1-8B-Instruct和其他微调后的Llama3.1-8B模型。如需对各种大语言模型（LLM）进行更广泛的比较，请参考Open Persian LLM Leaderboard，该排行榜提供了跨多个LLM的全面评估。

任务和评估框架

精心挑选了五项专门任务来评估和基准测试这些模型。每个任务都旨在挑战模型能力的不同方面，这些任务包括：

Part Multiple Choice：以多项选择的形式聚焦于常识和推理。
ARC Easy：测试简单级别的常识。
ARC Challenge：评估模型应对需要高级推理的难题的能力。
MMLU Pro：涵盖专业级考试。
AUT Multiple Choice Persian：专门的波斯语考试。

每个数据集均为波斯语，为非英语环境下的LLM提供了独特而强大的测试平台。这些数据集总共包含超过40k个样本，涵盖了常识、推理、总结和专业考试等各种语言和技术挑战。

评估结果

模型	平均准确率	Part Multiple Choice	ARC Easy	ARC Challenge	MMLU Pro	AUT Multiple Choice Persian
PartAI/Dorna2-Llama3.1-8B-Instruct	50.72	34.48	79.59	64.42	21.47	53.64
O1-OPEN/OpenO1-LLama-8B-v0.1	50.22	34.66	77.87	63.08	21.24	54.24
meta-llama/Llama-3.1-8B-Instruct	50.14	36.68	78.40	60.40	21.00	54.24
NousResearch/Hermes-3-Llama-3.1-8B	48.77	35.01	77.01	58.39	21.00	52.46
Skywork/Skywork-o1-Open-Llama-3.1-8B	34.15	27.02	47.12	41.61	14.55	40.43