🚀 Dorna2-Llama3.1-8B-Instruct模型
Dorna2-Llama3.1-8B-Instruct是由Part AI開發的解碼器模型,基於波斯語數據進行訓練和微調。它以Meta Llama 3.1 Instruct為基礎模型,為波斯語相關任務提供了強大的支持。
🚀 快速開始
- 若要在Hugging Face Spaces上免費測試和使用該模型,請點擊此處!
- 你也可以使用Transformers的Auto類和
generate()
函數進行對話推理。以下是一個示例:
import torch
import transformers
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
model_path,
torch_dtype=torch.bfloat16,
device_map="auto",
)
messages = [
{"role": "system",
"content": "You are a helpful Persian assistant. Please answer questions in the asked language."},
{"role": "user", "content": "کاغذ A4 بزرگ تر است یا A5؟"},
]
input_ids = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
terminators = [
tokenizer.eos_token_id,
tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = model.generate(
input_ids,
max_new_tokens=256,
eos_token_id=terminators,
do_sample=True,
temperature=0.3,
top_p=0.85,
)
response = outputs[0][input_ids.shape[-1]:]
print(tokenizer.decode(response, skip_special_tokens=True))
你還可以使用下面的筆記本在Google Colab中測試該模型。

✨ 主要特性
- 多語言支持:支持英語和波斯語。
- 特定領域優化:針對波斯語數據進行了專門的訓練和微調,在波斯語相關任務上表現出色。
📚 詳細文檔
評估
對比評估
此評估對比了Dorna2-Llama3.1-8B-Instruct、Llama3.1-8B-Instruct和其他微調後的Llama3.1-8B模型。如需對各種大語言模型(LLM)進行更廣泛的比較,請參考Open Persian LLM Leaderboard,該排行榜提供了跨多個LLM的全面評估。
任務和評估框架
精心挑選了五項專門任務來評估和基準測試這些模型。每個任務都旨在挑戰模型能力的不同方面,這些任務包括:
- Part Multiple Choice:以多項選擇的形式聚焦於常識和推理。
- ARC Easy:測試簡單級別的常識。
- ARC Challenge:評估模型應對需要高級推理的難題的能力。
- MMLU Pro:涵蓋專業級考試。
- AUT Multiple Choice Persian:專門的波斯語考試。
每個數據集均為波斯語,為非英語環境下的LLM提供了獨特而強大的測試平臺。這些數據集總共包含超過40k個樣本,涵蓋了常識、推理、總結和專業考試等各種語言和技術挑戰。
評估結果
模型 |
平均準確率 |
Part Multiple Choice |
ARC Easy |
ARC Challenge |
MMLU Pro |
AUT Multiple Choice Persian |
PartAI/Dorna2-Llama3.1-8B-Instruct |
50.72 |
34.48 |
79.59 |
64.42 |
21.47 |
53.64 |
O1-OPEN/OpenO1-LLama-8B-v0.1 |
50.22 |
34.66 |
77.87 |
63.08 |
21.24 |
54.24 |
meta-llama/Llama-3.1-8B-Instruct |
50.14 |
36.68 |
78.40 |
60.40 |
21.00 |
54.24 |
NousResearch/Hermes-3-Llama-3.1-8B |
48.77 |
35.01 |
77.01 |
58.39 |
21.00 |
52.46 |
Skywork/Skywork-o1-Open-Llama-3.1-8B |
34.15 |
27.02 |
47.12 |
41.61 |
14.55 |
40.43 |
📄 許可證
該模型使用的許可證為llama3.1。
聯繫我們
如果你對該模型有任何疑問,可以通過Hugging Face上的社區與我們取得聯繫。