ホーム

Qwen2.5 7B Instruct GGUF

Mungertによって開発

Qwen2.5-7B-InstructはQwen2.5-7Bを基にした命令微調整モデルで、テキスト生成タスクをサポートし、特にチャットシナリオでのパフォーマンスを最適化しています。

大規模言語モデル英語オープンソースライセンス:Apache-2.0 #超低ビット量子化 #精度適応 #エッジデバイス推論

ダウンロード数 706

リリース時間 : 4/25/2025

モデル概要

このモデルは7Bパラメータ規模の大規模言語モデルで、命令微調整が施されており、チャットやテキスト生成タスクに適しています。様々な量子化フォーマットをサポートし、異なるハードウェア環境に対応しています。

モデル特徴

IQ-DynamicGate超低ビット量子化

1-2ビットの超低ビット量子化をサポートし、動的精度割り当てと主要コンポーネント保護により、メモリ効率を維持しながら精度を向上させます。

マルチフォーマットサポート

BF16、F16および様々な量子化フォーマット（Q4_K、Q6_K、Q8_0など）を提供し、異なるハードウェア環境に適応します。

チャット最適化

チャットシナリオ向けに命令微調整を行い、会話の一貫性と応答品質を向上させます。

モデル能力

テキスト生成

チャット対話

命令追従

使用事例

チャットアシスタント

インテリジェントカスタマーサービス

自動化されたカスタマーサービスシステムで、ユーザーの問い合わせや問題解決に使用します。

一貫性があり正確な応答を提供し、ユーザーエクスペリエンスを向上させます。

エッジデバイス展開

低消費電力デバイス推論

メモリ制約のあるCPUやエッジデバイス上で量子化モデルを実行します。

効率的な推論を実現し、メモリ使用量を削減します。

license: apache-2.0 license_link: https://huggingface.co/Qwen/Qwen2.5-7B-Instruct/blob/main/LICENSE language:

en pipeline_tag: text-generation base_model: Qwen/Qwen2.5-7B tags:
chat library_name: transformers

Qwen2.5-7B-Instruct GGUFモデル

IQ-DynamicGateによる超低ビット量子化（1-2ビット）

最新の量子化手法では、精度適応型量子化を導入し、Llama-3-8Bでベンチマーク実証済みの改善を達成しました。このアプローチでは、レイヤーごとの戦略を用いて精度を維持しながら、極めてメモリ効率の高いモデルを実現しています。

ベンチマーク概要

Llama-3-8B-Instructを使用したテスト条件：

標準的なパープレキシティ評価パイプライン
2048トークンのコンテキストウィンドウ
全ての量子化手法で同一のプロンプトセットを使用

手法

動的精度割り当て：
- 最初と最後の25%のレイヤー → IQ4_XS（選択されたレイヤー）
- 中間50% → IQ2_XXS/IQ3_S（効率性向上）
重要コンポーネント保護：
- 埋め込み層と出力層はQ5_Kを使用
- 標準的な1-2ビット量子化と比べ、誤差伝播を38%低減

量子化性能比較（Llama-3-8B）

量子化	標準PPL	DynamicGate PPL	Δ PPL	標準サイズ	DGサイズ	Δサイズ	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

凡例：

PPL = パープレキシティ（低いほど良い）
Δ PPL = 標準からDynamicGateへの変化率
速度 = 推論時間（CPU avx2、2048トークンコンテキスト）
サイズ差は混合量子化のオーバーヘッドを反映

主な改善点：

🔥 IQ1_M は43.9%のパープレキシティ低減（27.46 → 15.41）
🚀 IQ2_S は36.9%のパープレキシティ改善、サイズ増加は僅か0.2GB
⚡ IQ1_S は1ビット量子化でも39.7%の精度向上を維持

トレードオフ：

全てのバリアントで若干のサイズ増加（0.1-0.3GB）
推論速度は同等（5%未満の差）

これらのモデルの使用場面

📌 GPU VRAMにモデルを収めたい場合

✔ メモリ制約のある環境

✔ 1-2ビットの誤差が許容できるCPUやエッジデバイス

✔ 超低ビット量子化の研究

適切なモデルフォーマットの選択

モデルフォーマットの選択は、ハードウェア性能とメモリ制約に依存します。

BF16（Brain Float 16） - BF16アクセラレーションが利用可能な場合に使用

高速計算向けに設計された16ビット浮動小数点フォーマット
FP32と同等のダイナミックレンジを維持しつつ、メモリ使用量を削減
BF16アクセラレーションをサポートするハードウェア向け（デバイス仕様を確認）
FP32と比べてメモリフットプリントを削減した高性能推論に最適

📌 BF16を使用する場合： ✔ ハードウェアがBF16をネイティブサポート（例：新しいGPU、TPU） ✔ 高精度が必要だがメモリを節約したい場合 ✔ モデルを別フォーマットに再量子化する予定がある場合

📌 BF16を避ける場合： ❌ ハードウェアがBF16をサポートしていない（FP32にフォールバックし遅くなる可能性） ❌ BF16最適化のない古いデバイスとの互換性が必要な場合

F16（Float 16） - BF16より広くサポート

16ビット浮動小数点の高精度フォーマット（BF16よりダイナミックレンジは狭い）
FP16アクセラレーションをサポートする多くのデバイス（GPUや一部CPU）で動作
BF16より数値精度は若干低いが、推論には十分

📌 F16を使用する場合： ✔ ハードウェアがFP16をサポートしているがBF16は未対応 ✔ 速度、メモリ使用量、精度のバランスが必要な場合 ✔ GPUなどFP16計算に最適化されたデバイスで実行する場合

📌 F16を避ける場合： ❌ デバイスがネイティブFP16をサポートしていない（期待より遅くなる可能性） ❌ メモリ制約がある場合

量子化モデル（Q4_K、Q6_K、Q8など） - CPU＆低VRAM推論向け

量子化によりモデルサイズとメモリ使用量を削減しつつ、可能な限り精度を維持：

低ビットモデル（Q4_K） → 最小メモリ使用、精度は低め
高ビットモデル（Q6_K、Q8_0） → 精度向上、より多くのメモリが必要

📌 量子化モデルを使用する場合： ✔ CPUで推論を実行し、最適化されたモデルが必要 ✔ デバイスのVRAMが少なく、フル精度モデルをロードできない ✔ メモリフットプリントを削減しつつ、合理的な精度を維持したい

📌 量子化モデルを避ける場合： ❌ 最高精度が必要（フル精度モデルが適している） ❌ ハードウェアに高精度フォーマット（BF16/F16）用の十分なVRAMがある

超低ビット量子化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）

極端なメモリ効率を実現し、低電力デバイスや大規模展開でメモリが深刻な制約となる場合に最適：

IQ3_XS：超低ビット量子化（3ビット）、極めてメモリ効率が高い
- 使用例：Q4_Kでも大きすぎる超低メモリデバイス向け
- トレードオフ：高ビット量子化より精度が低い
IQ3_S：最大メモリ効率のための小さなブロックサイズ
- 使用例：IQ3_XSが過度に攻撃的すぎる低メモリデバイス向け
IQ3_M：IQ3_Sより良い精度を提供する中ブロックサイズ
- 使用例：IQ3_Sが制限しすぎる低メモリデバイス向け
Q4_K：4ビット量子化、ブロック単位最適化で精度向上
- 使用例：Q6_Kが大きすぎる低メモリデバイス向け
Q4_0：純粋な4ビット量子化、ARMデバイス向けに最適化
- 使用例：ARMベースデバイスや低メモリ環境向け

要約表：モデルフォーマット選択

モデルフォーマット	精度	メモリ使用量	デバイス要件	最適な使用例
BF16	最高	高	BF16対応GPU/CPU	メモリ削減した高速推論
F16	高	高	FP16対応デバイス	BF16が利用できないGPU推論
Q4_K	中～低	低	CPUまたは低VRAMデバイス	メモリ制約環境に最適
Q6_K	中	中	メモリ豊富なCPU	量子化しながらも精度を重視
Q8_0	高	中	VRAM十分なCPU/GPU	量子化モデル中最も高精度
IQ3_XS	非常に低い	非常に低い	超低メモリデバイス	極端なメモリ効率と低精度
Q4_0	低	低	ARMまたは低メモリデバイス	llama.cppがARMデバイス向けに最適化