Diraya 3B Instruct Ar
基於Qwen2.5-3B微調的阿拉伯語推理專用語言模型,專注於提升阿拉伯語語言模型在邏輯推理和數學解題方面的能力。
下載量 86
發布時間 : 3/15/2025
模型概述
迪拉亞-3B-阿拉伯語指令模型屬於DIRA(迪拉亞阿拉伯語推理AI)系列,專為阿拉伯語複雜推理任務優化,採用結構化XML格式輸出推理過程,增強多步驟數學問題求解能力。
模型特點
阿拉伯語優先推理
專為阿拉伯語複雜推理任務優化
結構化推理格式
訓練輸出清晰XML格式的推理過程
數學推理能力
增強的多步驟數學問題求解能力
指令調優
可靠遵循阿拉伯語指令
輕量化
基於高效的30億參數架構
模型能力
阿拉伯語文本生成
數學推理
邏輯推理
指令遵循
結構化輸出
使用案例
教育
數學問題求解
解決阿拉伯語小學數學問題,提供分步推理過程
生成結構化XML格式的推理步驟和最終答案
研究
阿拉伯語NLP研究
用於阿拉伯語語言模型的推理能力評估
🚀 Diraya-3B-Instruct-Ar
Diraya-3B-Instruct-Ar 是一個專門用於阿拉伯語推理的語言模型,它基於 Qwen2.5-3B
進行微調。該模型屬於 DIRA(Diraya Arabic Reasoning AI) 系列,專注於提升阿拉伯語語言模型的邏輯推理和數學推理能力。
🚀 快速開始
安裝依賴
首先,確保你已經安裝了所需的庫:
pip install transformers peft vLLM unsloth
代碼示例
from unsloth import FastLanguageModel
max_seq_length = 1024 # Can increase for longer reasoning traces
lora_rank = 64 # Larger rank = smarter, but slower
model, tokenizer = FastLanguageModel.from_pretrained(
model_name = "Omartificial-Intelligence-Space/Diraya-3B-Instruct-Ar",
max_seq_length = max_seq_length,
load_in_4bit = True, # False for LoRA 16bit
fast_inference = True, # Enable vLLM fast inference
max_lora_rank = lora_rank,
)
# System prompt to enforce XML structure
system_prompt = """
Respond in the following format in Arabic language only:
<reasoning>
...
</reasoning>
<answer>
...
</answer>
"""
# Prepare user question
user_question = "كل يوم، تُطعم وندي كل دجاجة من دجاجاتها ثلاث أكواب من العلف المختلط. تقدم الدجاجات وجباتهم في ثلاث وجبات منفصلة. في الصباح، تعطي قطيعها من الدجاج 15 كوبًا من العلف. في فترة ما بعد الظهر، تعطي دجاجاتها 25 كوبًا أخرى من العلف. كم عدد أكواب العلف التي تحتاجها لتقديمها لدجاجاتها في الوجبة الأخيرة من اليوم إذا كان حجم قطيع وندي 20 دجاجة؟"
# Prepare input for the model
messages = [
{"role": "system", "content": system_prompt},
{"role": "user", "content": user_question}
]
input_text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
# Generate response
inputs = tokenizer(input_text, return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=512,
temperature=0.7,
top_p=0.95
)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
✨ 主要特性
- 以阿拉伯語推理為核心:專門針對阿拉伯語的複雜推理任務進行優化。
- 結構化推理格式:經過訓練,能夠以清晰的 XML 格式輸出推理過程。
- 數學推理能力:增強了解決多步數學問題的能力。
- 指令遵循性:能夠可靠地遵循阿拉伯語指令。
- 輕量級模型:基於高效的 3B 參數模型架構。
📦 安裝指南
pip install transformers peft vLLM unsloth
💻 使用示例
基礎用法
from unsloth import FastLanguageModel
max_seq_length = 1024 # Can increase for longer reasoning traces
lora_rank = 64 # Larger rank = smarter, but slower
model, tokenizer = FastLanguageModel.from_pretrained(
model_name = "Omartificial-Intelligence-Space/Diraya-3B-Instruct-Ar",
max_seq_length = max_seq_length,
load_in_4bit = True, # False for LoRA 16bit
fast_inference = True, # Enable vLLM fast inference
max_lora_rank = lora_rank,
)
# System prompt to enforce XML structure
system_prompt = """
Respond in the following format in Arabic language only:
<reasoning>
...
</reasoning>
<answer>
...
</answer>
"""
# Prepare user question
user_question = "كل يوم، تُطعم وندي كل دجاجة من دجاجاتها ثلاث أكواب من العلف المختلط. تقدم الدجاجات وجباتهم في ثلاث وجبات منفصلة. في الصباح، تعطي قطيعها من الدجاج 15 كوبًا من العلف. في فترة ما بعد الظهر، تعطي دجاجاتها 25 كوبًا أخرى من العلف. كم عدد أكواب العلف التي تحتاجها لتقديمها لدجاجاتها في الوجبة الأخيرة من اليوم إذا كان حجم قطيع وندي 20 دجاجة؟"
# Prepare input for the model
messages = [
{"role": "system", "content": system_prompt},
{"role": "user", "content": user_question}
]
input_text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
# Generate response
inputs = tokenizer(input_text, return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=512,
temperature=0.7,
top_p=0.95
)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
📚 詳細文檔
模型描述
Diraya-3B-Instruct-Ar 是一個從 Qwen2.5-3B
微調而來的阿拉伯語推理專用語言模型。該模型是 DIRA(Diraya Arabic Reasoning AI) 集合的一部分,專注於提升阿拉伯語語言模型的邏輯推理和數學推理能力。
技術細節
屬性 | 詳情 |
---|---|
基礎模型 | Qwen2.5-3B via unsloth/Qwen2.5-3B-Instruct-unsloth-bnb-4bit |
模型類型 | 指令微調的因果語言模型 |
架構 | 36 個 Transformer 層;查詢使用 16 個注意力頭(GQA);鍵/值使用 2 個注意力頭;上下文長度:32,768 個標記 |
訓練方法 | 使用 GPRO 進行微調;訓練重點是使用 XML 標籤的結構化推理輸出格式;使用阿拉伯語 GSM8K 數據集優化數學推理能力;使用多個獎勵函數,包括正確性、格式遵循和輸出結構 |
LoRA 配置 |
{
"peft_type": "LORA",
"r": 64,
"lora_alpha": 64,
"lora_dropout": 0,
"target_modules": [
"k_proj", "gate_proj", "o_proj", "down_proj",
"v_proj", "up_proj", "q_proj"
],
"bias": "none",
"inference_mode": true
}
``` |
### 訓練數據
該模型主要在以下數據集上進行微調:
- [**阿拉伯語 GSM8K 數據集**](https://huggingface.co/datasets/Omartificial-Intelligence-Space/Arabic-gsm8k):一個全面的小學算術問題集合,已翻譯成阿拉伯語,需要多步推理。
### 訓練和評估結果

*圖:訓練步驟中的獎勵組成,展示了模型在不同獎勵函數下的性能演變*
訓練過程中使用了多個獎勵函數來優化模型的不同方面的性能:
- **正確性獎勵**(紅色):衡量模型生成正確最終答案的能力。
- **整數獎勵**(藍色):確保模型輸出有效的數值響應。
- **格式獎勵**(紫色/灰色):促進遵循正確的 XML 結構。
- **XML 計數獎勵**(黃色):微調 XML 標籤的精確放置和完整性。
如圖所示,模型在整個訓練過程中在所有獎勵維度上都表現出持續的改進。獎勵值越高,表示輸出質量越高,同時滿足多個優化標準。這種多目標訓練方法使得模型不僅能夠產生正確的答案,而且能夠以清晰、結構化的推理方式呈現。
該模型在阿拉伯語數學推理任務中表現出色,尤其在以下方面具有優勢:
- 生成結構良好的推理步驟。
- 遵循所需的 XML 輸出格式。
- 為多步問題得出正確的數值答案。
### 引用
如果您在研究中使用了該模型,請引用:
```bibtex
@misc{diraya3b,
title={Diraya-3B-Instruct-Ar: An Arabic Reasoning-Specialized Language Model},
author={Omartificial-Intelligence-Space},
year={2025},
howpublished={\url{https://huggingface.co/Omartificial-Intelligence-Space/Diraya-3B-Instruct-Ar}}
}
致謝
該模型基於 Qwen 團隊的 Qwen2.5-3B 模型構建,並採用了 Unsloth 的優化技術。我們感謝他們對語言建模領域的寶貴貢獻。
@misc{qwen2.5,
title = {Qwen2.5: A Party of Foundation Models},
url = {https://qwenlm.github.io/blog/qwen2.5/},
author = {Qwen Team},
month = {September},
year = {2024}
}
@article{qwen2,
title={Qwen2 Technical Report},
author={An Yang and Baosong Yang and Binyuan Hui and Bo Zheng and Bowen Yu and Chang Zhou and Chengpeng Li and Chengyuan Li and Dayiheng Liu and Fei Huang and Guanting Dong and Haoran Wei and Huan Lin and Jialong Tang and Jialin Wang and Jian Yang and Jianhong Tu and Jianwei Zhang and Jianxin Ma and Jin Xu and Jingren Zhou and Jinze Bai and Jinzheng He and Junyang Lin and Kai Dang and Keming Lu and Keqin Chen and Kexin Yang and Mei Li and Mingfeng Xue and Na Ni and Pei Zhang and Peng Wang and Ru Peng and Rui Men and Ruize Gao and Runji Lin and Shijie Wang and Shuai Bai and Sinan Tan and Tianhang Zhu and Tianhao Li and Tianyu Liu and Wenbin Ge and Xiaodong Deng and Xiaohuan Zhou and Xingzhang Ren and Xinyu Zhang and Xipin Wei and Xuancheng Ren and Yang Fan and Yang Yao and Yichang Zhang and Yu Wan and Yunfei Chu and Yuqiong Liu and Zeyu Cui and Zhenru Zhang and Zhihao Fan},
journal={arXiv preprint arXiv:2407.10671},
year={2024}
}
📄 許可證
該模型使用 apache-2.0
許可證。
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98