🚀 ドルナ・ラマ3-8B-インストラクト4ビット量子化モデル
このリポジトリは、Dorna-Llama3-8B-Instruct モデルの4ビット量子化バージョンで、メモリ使用量を効率的に抑えることができます。ドルナモデルはデコーダー専用のモデルで、特にペルシャ語のデータで訓練/ファインチューニングされています。また、高速推論のために Flash Attention 2 が統合されています。
🚀 クイックスタート
このモデルを使用するには、TransformersのAutoクラスとgenerate()
関数を使って会話型推論を実行できます。以下に例を示します。
import torch
import transformers
from transformers import AutoTokenizer, AutoModelForCausalLM
model_path = "amirMohammadi/Dorna-Llama3-8B-Instruct-Quantized4Bit"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
model_path,
torch_dtype=torch.bfloat16,
device_map="auto",
)
messages = [
{"role": "system",
"content": "You are a helpful Persian assistant. Please answer questions in the asked language."},
{"role": "user", "content": "اصفهان بزرگ تر است یا قم؟"},
]
input_ids = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
terminators = [
tokenizer.eos_token_id,
tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = model.generate(
input_ids,
max_new_tokens=256,
eos_token_id=terminators,
do_sample=True,
temperature=0.6,
top_p=0.9,
)
response = outputs[0][input_ids.shape[-1]:]
print(tokenizer.decode(response, skip_special_tokens=True))
✨ 主な機能
- メモリ使用量の削減:4ビット量子化により、メモリ要件が低下します。
- 高速推論:Flash Attention 2により、処理が高速化されます。
- 簡単なデプロイ:LlamaCPPやCandleなどの追加ライブラリは必要ありません。
- すぐに使える:Langchain、Haystack、LlamaIndex 2などと互換性があります。
- Google Colab対応:T4 GPUを搭載したGoogle Colabの無料枠で実行できます(GPU RAMが15GB未満)。
📚 ドキュメント
非量子化バージョンの評価
このモデルは、ブール型の質問、コード生成、長文応答、数学、ニュースQA、言い換え、一般知識、要約など、さまざまなタスクの質問に対して評価されています。ほとんどのカテゴリには、通常、HardとEasyの2つの主な難易度レベルがあります。
人間による評価と自動評価(GPT - 4を審査員として使用)の両方が行われています。
両方の表では、Dorna - 8B - it が Dorna - Llama3 - 8B - Instruct の略称として使用されています。
全体的な人間評価結果
モデルペア |
パラメータ |
勝率 % |
敗率 % |
引き分け率 % |
Dorna - 8B - it vs. Meta - Llama - 3 - 8B - Instruct |
8B |
36.94 |
17.39 |
45.67 |
Dorna - 8B - it vs. GPT 3.5 turbo - 1106 |
N.A. |
32.01 |
26.94 |
41.05 |
Dorna - 8B - it vs. Persian Mind |
7B |
55.77 |
10.49 |
33.74 |
カテゴリ別の人間評価結果
各カテゴリの勝率/敗率/引き分け率 % が報告されています。
モデルペア |
パラメータ |
複雑なブール型 |
簡単なブール型 |
コード生成 |
一般的な長文応答 |
歴史的な長文応答 |
複雑な数学 |
簡単な数学 |
複雑なニュースQA |
簡単なニュースQA |
言い換え |
簡単な一般知識 |
難しい一般知識 |
要約 |
Dorna - 8B - it vs. Meta - Llama - 3 - 8B - Instruct |
8B |
0.25/0.25/0.5 |
0.28/0.35/0.38 |
0.6/0.1/0.3 |
0.8/0.08/0.12 |
0.4/0.3/0.3 |
0.28/0.08/0.65 |
0.47/0.00/0.53 |
0.55/0.07/0.38 |
0.43/0.15/0.42 |
0.1/0.05/0.85 |
0.31/0.2/0.49 |
0.59/0.13/0.28 |
0.28/0.2/0.53 |
Dorna - 8B - it vs. GPT 3.5 turbo - 1106 |
N.A. |
0.35/0.35/0.3 |
0.3/0.3/0.4 |
0.1/0.3/.06 |
0.2/0.45/0.35 |
0.46/0.27/0.27 |
0.25/0.1/0.65 |
0.05/0.1/0.85 |
0.12/0.35/0.53 |
0.15/0.1/0.75 |
0.25/0.15/0.6 |
0.3/0.32/0.38 |
0.22/0.53/0.25 |
0.35/0.55/0.1 |
Dorna - 8B - it vs. Persian Mind |
7B |
0.47/0.25/0.28 |
0.57/0.15/0.28 |
0.9/0.1/0.0 |
0.82/0.08/0.1 |
0.4/0.17/0.42 |
0.3/0.0/0.7 |
0.22/0.08/0.7 |
0.72/0.07/0.2 |
0.7/0.0/0.3 |
0.7/0.05/0.25 |
0.51/0.12/0.37 |
0.61/0.1/0.29 |
0.93/0.0/0.07 |
自動評価結果
モデルペア |
パラメータ |
全体勝率 % |
簡単なタスク勝率 % |
難しいタスク勝率 % |
Dorna - 8B - it vs. Llama 3 base |
8B |
58.96 |
56.00 |
64.49 |
Dorna - 8B - it vs. Part Mistral |
7B |
77.20 |
73.00 |
85.05 |
Dorna - 8B - it vs. Persian Mind |
7B |
90.88 |
87.50 |
97.20 |
Dorna - 8B - it vs. Neuraorca Gemma 7b |
7B |
86.32 |
86.50 |
85.98 |
Dorna - 8B - it vs. Maral 7b |
7B |
97.39 |
97.00 |
98.13 |
Dorna - 8B - it vs. PersianLlama 7b |
7B |
98.70 |
98.00 |
100.00 |
Dorna - 8B - it vs. Aya - 23 - 8B |
8B |
52.77 |
56.50 |
45.79 |
Dorna - 8B - it vs. Aya - 23 - 35B |
35B |
45.93 |
54.00 |
30.84 |
Dorna - 8B - it vs. Command R |
35B |
58.63 |
61.00 |
54.21 |
📄 ライセンス
このモデルは、llama3ライセンスの下で提供されています。
お問い合わせ
このモデルに関する質問がある場合は、Hugging Faceのコミュニティ を通じてお問い合わせください。