Dorna2-Llama3.1-8B-Instruct開源大語言模型 - 波斯語交流場景免費好幫手

首頁

Dorna2 Llama3.1 8B Instruct

由PartAI開發

Dorna2-Llama3.1-8B-Instruct是由Part AI開發的基於Meta Llama 3.1 Instruct的8B參數大語言模型，專門針對波斯語進行了優化。

大型語言模型

Transformers

支持多種語言#波斯語優化 #多輪對話 #指令微調

下載量 844

發布時間 : 12/3/2024

模型概述

該模型是基於Meta Llama 3.1 Instruct架構開發的波斯語優化版本，專注於指令跟隨和對話任務，支持英語和波斯語雙語處理。

模型特點

波斯語優化

專門針對波斯語數據進行了訓練和微調，在波斯語任務上表現優異

雙語支持

同時支持英語和波斯語處理，可根據用戶提問語言自動切換

指令優化

針對指令跟隨任務進行了專門優化，能更好地理解並執行復雜指令

模型能力

文本生成

多輪對話

雙語處理

常識推理

專業領域問答

使用案例

智能助手

波斯語客服助手

為波斯語用戶提供客戶服務支持

在波斯語選擇題測試中獲得53.64%準確率

教育應用

語言學習助手

幫助用戶學習波斯語和英語

🚀 Dorna2-Llama3.1-8B-Instruct模型

Dorna2-Llama3.1-8B-Instruct是由Part AI開發的解碼器模型，基於波斯語數據進行訓練和微調。它以Meta Llama 3.1 Instruct為基礎模型，為波斯語相關任務提供了強大的支持。

🚀 快速開始

若要在Hugging Face Spaces上免費測試和使用該模型，請點擊此處！
你也可以使用Transformers的Auto類和generate()函數進行對話推理。以下是一個示例：

import torch
import transformers
from transformers import AutoTokenizer, AutoModelForCausalLM


tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

messages = [
    {"role": "system",
     "content": "You are a helpful Persian assistant. Please answer questions in the asked language."},
    {"role": "user", "content": "Ú©Ø§ØºØ° A4 Ø¨Ø²Ø±Ú¯ ØªØ± Ø§Ø³Øª ÛŒØ§ A5ØŸ"},
]

input_ids = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = model.generate(
    input_ids,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.3,
    top_p=0.85,
)
response = outputs[0][input_ids.shape[-1]:]
print(tokenizer.decode(response, skip_special_tokens=True))

你還可以使用下面的筆記本在Google Colab中測試該模型。

✨ 主要特性

多語言支持：支持英語和波斯語。
特定領域優化：針對波斯語數據進行了專門的訓練和微調，在波斯語相關任務上表現出色。

📚 詳細文檔

評估

對比評估

此評估對比了Dorna2-Llama3.1-8B-Instruct、Llama3.1-8B-Instruct和其他微調後的Llama3.1-8B模型。如需對各種大語言模型（LLM）進行更廣泛的比較，請參考Open Persian LLM Leaderboard，該排行榜提供了跨多個LLM的全面評估。

任務和評估框架

精心挑選了五項專門任務來評估和基準測試這些模型。每個任務都旨在挑戰模型能力的不同方面，這些任務包括：

Part Multiple Choice：以多項選擇的形式聚焦於常識和推理。
ARC Easy：測試簡單級別的常識。
ARC Challenge：評估模型應對需要高級推理的難題的能力。
MMLU Pro：涵蓋專業級考試。
AUT Multiple Choice Persian：專門的波斯語考試。

每個數據集均為波斯語，為非英語環境下的LLM提供了獨特而強大的測試平臺。這些數據集總共包含超過40k個樣本，涵蓋了常識、推理、總結和專業考試等各種語言和技術挑戰。

評估結果

模型	平均準確率	Part Multiple Choice	ARC Easy	ARC Challenge	MMLU Pro	AUT Multiple Choice Persian
PartAI/Dorna2-Llama3.1-8B-Instruct	50.72	34.48	79.59	64.42	21.47	53.64
O1-OPEN/OpenO1-LLama-8B-v0.1	50.22	34.66	77.87	63.08	21.24	54.24
meta-llama/Llama-3.1-8B-Instruct	50.14	36.68	78.40	60.40	21.00	54.24
NousResearch/Hermes-3-Llama-3.1-8B	48.77	35.01	77.01	58.39	21.00	52.46
Skywork/Skywork-o1-Open-Llama-3.1-8B	34.15	27.02	47.12	41.61	14.55	40.43