🚀 Diraya-3B-Instruct-Ar
Diraya-3B-Instruct-Ar は、アラビア語
の推論に特化した言語モデルで、Qwen2.5-3B
からファインチューニングされました。このモデルは、アラビア語の言語モデルの論理的推論と数学的推論能力を強化することに焦点を当てた DIRA (Diraya Arabic Reasoning AI) コレクションの一部です。
🚀 クイックスタート
このモデルは、以下のような構造化された推論を出力するように設計されています。
<reasoning>
[アラビア語での段階的な推論プロセス]
</reasoning>
<answer>
[アラビア語での最終的な答え]
</answer>
基本的な使用法
from unsloth import FastLanguageModel
max_seq_length = 1024
lora_rank = 64
model, tokenizer = FastLanguageModel.from_pretrained(
model_name = "Omartificial-Intelligence-Space/Diraya-3B-Instruct-Ar",
max_seq_length = max_seq_length,
load_in_4bit = True,
fast_inference = True,
max_lora_rank = lora_rank,
)
system_prompt = """
アラビア語でのみ次の形式で応答してください:
<reasoning>
...
</reasoning>
<answer>
...
</answer>
"""
user_question = "كل يوم، تُطعم وندي كل دجاجة من دجاجاتها ثلاث أكواب من العلف المختلط. تقدم الدجاجات وجباتهم في ثلاث وجبات منفصلة. في الصباح، تعطي قطيعها من الدجاج 15 كوبًا من العلف. في فترة ما بعد الظهر، تعطي دجاجاتها 25 كوبًا أخرى من العلف. كم عدد أكواب العلف التي تحتاجها لتقديمها لدجاجاتها في الوجبة الأخيرة من اليوم إذا كان حجم قطيع وندي 20 دجاجة؟"
messages = [
{"role": "system", "content": system_prompt},
{"role": "user", "content": user_question}
]
input_text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(input_text, return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=512,
temperature=0.7,
top_p=0.95
)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
✨ 主な機能
- アラビア語を中心とした推論:アラビア語の複雑な推論タスクに特化して最適化されています。
- 構造化された推論形式:明確なXML形式で推論を出力するように訓練されています。
- 数学的推論:多段階の数学問題を解く能力が強化されています。
- 命令調整済み:アラビア語での命令に確実に従います。
- 軽量:効率的な3Bパラメータモデルアーキテクチャに基づいています。
🔧 技術詳細
ベースモデル:Qwen2.5-3B を unsloth/Qwen2.5-3B-Instruct-unsloth-bnb-4bit を介して使用。
モデルタイプ:命令調整済みの因果言語モデル
アーキテクチャ:
- 36層のトランスフォーマー層
- クエリに16個のアテンションヘッド (GQA)
- キー/バリューに2個のアテンションヘッド
- コンテキスト長: 32,768トークン
トレーニングアプローチ:
GPRO
を使用してファインチューニング
- XMLタグを使用した構造化された推論出力形式に焦点を当てたトレーニング
- アラビア語のGSM8Kデータセットを使用して数学的推論を最適化
- 正確性、形式遵守、出力構造などの複数の報酬関数を使用
LoRA設定:
{
"peft_type": "LORA",
"r": 64,
"lora_alpha": 64,
"lora_dropout": 0,
"target_modules": [
"k_proj", "gate_proj", "o_proj", "down_proj",
"v_proj", "up_proj", "q_proj"
],
"bias": "none",
"inference_mode": true
}
📦 インストール
ドキュメントに具体的なインストール手順が記載されていないため、このセクションは省略されます。
📚 ドキュメント
トレーニングデータ
このモデルは主に以下のデータセットでファインチューニングされました。
トレーニングと評価結果
トレーニングの進捗

図:トレーニングステップごとの報酬の構成。異なる報酬関数にわたるモデルの性能の進化を示しています。
トレーニングでは、モデルの性能のさまざまな側面を最適化するために複数の報酬関数が使用されました。
- 正確性報酬 (赤色):モデルが正しい最終的な答えを生成する能力を測定します。
- 整数報酬 (青色):モデルが有効な数値応答を出力することを保証します。
- 形式報酬 (紫色/灰色):適切なXML構造の遵守を促進します。
- XMLカウント報酬 (黄色):正確なXMLタグの配置と完全性を微調整します。
視覚化に示されているように、モデルはトレーニングプロセスを通じてすべての報酬次元で一貫した改善を示しました。報酬の上限値は、複数の最適化基準を同時に満たす高品質の出力を示しています。この多目的トレーニングアプローチにより、正しい答えを生成するだけでなく、明確で構造化された推論を行うモデルが得られました。
モデルは、アラビア語の数学的推論タスクで強力な性能を示し、特に以下の点で優れています。
- 構造化された推論ステップを生成すること
- 必要なXML出力形式に従うこと
- 多段階問題の正しい数値答えを導き出すこと
📄 ライセンス
このモデルは apache-2.0
ライセンスの下で提供されています。
引用
このモデルを研究で使用する場合は、以下のように引用してください。
@misc{diraya3b,
title={Diraya-3B-Instruct-Ar: An Arabic Reasoning-Specialized Language Model},
author={Omartificial-Intelligence-Space},
year={2025},
howpublished={\url{https://huggingface.co/Omartificial-Intelligence-Space/Diraya-3B-Instruct-Ar}}
}
謝辞
このモデルは、QwenチームによるQwen2.5-3Bモデルをベースに構築されており、Unslothの最適化技術を利用しています。彼らが言語モデリングの分野に対して行った貴重な貢献に感謝します。
@misc{qwen2.5,
title = {Qwen2.5: A Party of Foundation Models},
url = {https://qwenlm.github.io/blog/qwen2.5/},
author = {Qwen Team},
month = {September},
year = {2024}
}
@article{qwen2,
title={Qwen2 Technical Report},
author={An Yang and Baosong Yang and Binyuan Hui and Bo Zheng and Bowen Yu and Chang Zhou and Chengpeng Li and Chengyuan Li and Dayiheng Liu and Fei Huang and Guanting Dong and Haoran Wei and Huan Lin and Jialong Tang and Jialin Wang and Jian Yang and Jianhong Tu and Jianwei Zhang and Jianxin Ma and Jin Xu and Jingren Zhou and Jinze Bai and Jinzheng He and Junyang Lin and Kai Dang and Keming Lu and Keqin Chen and Kexin Yang and Mei Li and Mingfeng Xue and Na Ni and Pei Zhang and Peng Wang and Ru Peng and Rui Men and Ruize Gao and Runji Lin and Shijie Wang and Shuai Bai and Sinan Tan and Tianhang Zhu and Tianhao Li and Tianyu Liu and Wenbin Ge and Xiaodong Deng and Xiaohuan Zhou and Xingzhang Ren and Xinyu Zhang and Xipin Wei and Xuancheng Ren and Yang Fan and Yang Yao and Yichang Zhang and Yu Wan and Yunfei Chu and Yuqiong Liu and Zeyu Cui and Zhenru Zhang and Zhihao Fan},
journal={arXiv preprint arXiv:2407.10671},
year={2024}
}