Gryphe Codex-24B-Small-3.2モデルがオープンソースに！量子化版は複数のハードウェアでの動作効率を最適化

ホーム

Gryphe Codex 24B Small 3.2 GGUF

bartowskiによって開発

これはGrypheのCodex-24B-Small-3.2モデルの量子化バージョンで、量子化技術によりさまざまなハードウェア条件下での実行効率が最適化されています。

大規模言語モデル英語オープンソースライセンス:Apache-2.0 #高効率量子化推論 #多段階量子化選択 #ChatML形式サポート

ダウンロード数 626

リリース時間 : 6/22/2025

モデル概要

このモデルはGryphe/Codex-24B-Small-3.2をベースとした量子化バージョンで、テキスト生成タスクに適しており、英語をサポートし、ChatML形式で会話インタラクションが可能です。

モデル特徴

高効率量子化

llama.cppのimatrix量子化技術により、さまざまなハードウェア条件下でのモデルの実行効率が最適化されています。

多量子化オプション

Q8_0からIQ2_XXSまでのさまざまな量子化バージョンを提供し、さまざまなメモリとパフォーマンスの要件を満たします。

ChatMLサポート

ChatML形式の会話インタラクションをサポートし、ロールプレイングと命令追従タスクに適しています。

モデル能力

テキスト生成

命令追従

ロールプレイング

使用事例

対話システム

ロールプレイング対話

ChatML形式を使用してロールプレイング対話を行い、さまざまなキャラクターの応答をシミュレートします。

テキスト生成

命令生成

ユーザーの命令に基づいて、対応するテキスト内容を生成します。

🚀 GrypheのCodex-24B-Small-3.2のLlamacpp imatrix量子化バージョン

本プロジェクトは、GrypheのCodex-24B-Small-3.2モデルの量子化バージョンです。量子化技術を利用することで、様々なハードウェア環境でモデルをより効率的に実行することができます。

モデル情報

属性	詳細
量子化者	bartowski
タスクタイプ	テキスト生成
ベースモデル	Gryphe/Codex-24B-Small-3.2
ベースモデルとの関係	量子化バージョン
ライセンス	apache-2.0
言語	en
タグ	instruct、finetune、chatml、axolotl、roleplay

🚀 クイックスタート

この量子化モデルは、llama.cpp の b5697 バージョンを使用して量子化されています。元のモデルのアドレス：Gryphe/Codex-24B-Small-3.2

すべての量子化モデルは、imatrixオプションを使用し、ここのデータセットを使用しています。

モデルを以下の方法で実行することができます：

LM Studio で実行する。
llama.cpp または他のllama.cppベースのプロジェクトを直接使用して実行する。

✨ 主な機能

プロンプト形式

チャットテンプレートが指定されていないため、デフォルトのテンプレートが使用されます。これにはエラーが含まれる可能性がありますので、詳細情報は元のモデルカードを参照してください。

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

ファイルのダウンロード

以下のリストから、単一のファイル（ブランチ全体ではなく）を選択してダウンロードすることができます：

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
Codex-24B-Small-3.2-bf16.gguf	bf16	47.15GB	false	完全なBF16ウェイト。
Codex-24B-Small-3.2-Q8_0.gguf	Q8_0	25.05GB	false	非常に高い品質で、通常は必要ありませんが、最大限利用可能な量子化です。
Codex-24B-Small-3.2-Q6_K_L.gguf	Q6_K_L	19.67GB	false	埋め込みと出力ウェイトにQ8_0を使用します。非常に高い品質で、ほぼ完璧で、推奨です。
Codex-24B-Small-3.2-Q6_K.gguf	Q6_K	19.35GB	false	非常に高い品質で、ほぼ完璧で、推奨です。
Codex-24B-Small-3.2-Q5_K_L.gguf	Q5_K_L	17.18GB	false	埋め込みと出力ウェイトにQ8_0を使用します。高品質で、推奨です。
Codex-24B-Small-3.2-Q5_K_M.gguf	Q5_K_M	16.76GB	false	高品質で、推奨です。
Codex-24B-Small-3.2-Q5_K_S.gguf	Q5_K_S	16.30GB	false	高品質で、推奨です。
Codex-24B-Small-3.2-Q4_1.gguf	Q4_1	14.87GB	false	旧形式で、Q4_K_Sと同様のパフォーマンスですが、Appleシリコンチップでは1ワットあたりのトークン処理量が向上しています。
Codex-24B-Small-3.2-Q4_K_L.gguf	Q4_K_L	14.83GB	false	埋め込みと出力ウェイトにQ8_0を使用します。良好な品質で、推奨です。
Codex-24B-Small-3.2-Q4_K_M.gguf	Q4_K_M	14.33GB	false	良好な品質で、ほとんどのユースケースのデフォルトサイズで、推奨です。
Codex-24B-Small-3.2-Q4_K_S.gguf	Q4_K_S	13.55GB	false	品質はやや低いですが、より多くのスペースを節約でき、推奨です。
Codex-24B-Small-3.2-Q4_0.gguf	Q4_0	13.49GB	false	旧形式で、ARMおよびAVX CPU推論用のオンライン再パッキングを提供します。
Codex-24B-Small-3.2-IQ4_NL.gguf	IQ4_NL	13.47GB	false	IQ4_XSに似ていますが、やや大きいです。ARM CPU推論用のオンライン再パッキングを提供します。
Codex-24B-Small-3.2-Q3_K_XL.gguf	Q3_K_XL	12.99GB	false	埋め込みと出力ウェイトにQ8_0を使用します。品質は低いですが使用可能で、低メモリの場合に適しています。
Codex-24B-Small-3.2-IQ4_XS.gguf	IQ4_XS	12.76GB	false	良好な品質で、Q4_K_Sより小さく、パフォーマンスは同様で、推奨です。
Codex-24B-Small-3.2-Q3_K_L.gguf	Q3_K_L	12.40GB	false	品質は低いですが使用可能で、低メモリの場合に適しています。
Codex-24B-Small-3.2-Q3_K_M.gguf	Q3_K_M	11.47GB	false	低品質です。
Codex-24B-Small-3.2-IQ3_M.gguf	IQ3_M	10.65GB	false	中低品質で、新しい方法で、Q3_K_Mと同等のパフォーマンスです。
Codex-24B-Small-3.2-Q3_K_S.gguf	Q3_K_S	10.40GB	false	低品質で、推奨しません。
Codex-24B-Small-3.2-IQ3_XS.gguf	IQ3_XS	9.91GB	false	品質は低いですが、新しい方法で、良好なパフォーマンスで、Q3_K_Sよりやや優れています。
Codex-24B-Small-3.2-Q2_K_L.gguf	Q2_K_L	9.55GB	false	埋め込みと出力ウェイトにQ8_0を使用します。非常に低い品質ですが、意外にも使用可能です。
Codex-24B-Small-3.2-IQ3_XXS.gguf	IQ3_XXS	9.28GB	false	品質は低いですが、新しい方法で、良好なパフォーマンスで、Q3量子化と同等です。
Codex-24B-Small-3.2-Q2_K.gguf	Q2_K	8.89GB	false	非常に低い品質ですが、意外にも使用可能です。
Codex-24B-Small-3.2-IQ2_M.gguf	IQ2_M	8.11GB	false	比較的低い品質で、最先端の技術を使用していますが、意外にも使用可能です。
Codex-24B-Small-3.2-IQ2_S.gguf	IQ2_S	7.48GB	false	低品質で、最先端の技術を使用していますが、使用可能です。
Codex-24B-Small-3.2-IQ2_XS.gguf	IQ2_XS	7.21GB	false	低品質で、最先端の技術を使用していますが、使用可能です。
Codex-24B-Small-3.2-IQ2_XXS.gguf	IQ2_XXS	6.55GB	false	非常に低い品質で、最先端の技術を使用していますが、使用可能です。

埋め込み/出力ウェイト

一部の量子化モデル（Q3_K_XL、Q4_K_Lなど）は、標準的な量子化方法を使用して、埋め込みと出力ウェイトをデフォルト値ではなくQ8_0に量子化しています。

📦 インストール

huggingface-cliを使用したダウンロード

ダウンロード手順を表示するにはクリック

まず、hugginface-cliがインストールされていることを確認してください：

pip install -U "huggingface_hub[cli]"

次に、ダウンロードする特定のファイルを指定できます：

huggingface-cli download bartowski/Gryphe_Codex-24B-Small-3.2-GGUF --include "Gryphe_Codex-24B-Small-3.2-Q4_K_M.gguf" --local-dir ./

モデルが50GBを超える場合、複数のファイルに分割されます。これらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行します：

huggingface-cli download bartowski/Gryphe_Codex-24B-Small-3.2-GGUF --include "Gryphe_Codex-24B-Small-3.2-Q8_0/*" --local-dir ./

新しいローカルディレクトリ（Gryphe_Codex-24B-Small-3.2-Q8_0など）を指定することも、現在のディレクトリ（./）にすべてダウンロードすることもできます。

🔧 技術詳細

ARM/AVX情報

以前は、Q4_0_4_4/4_8/8_8ファイルをダウンロードしていました。これらのファイルのウェイトは、ARMおよびAVXマシンのパフォーマンスを向上させるために、一度により多くのデータをロードすることができるように、メモリ内で交差配置されていました。

しかし、現在では「オンライン再パッキング」と呼ばれるウェイト処理方法があります。詳細はこのPR を参照してください。Q4_0を使用し、ハードウェアがウェイトの再パッキングから恩恵を受ける場合、実行時に自動的に処理されます。

llama.cppのビルドバージョン b4282 以降では、Q4_0_X_Xファイルを実行することはできず、Q4_0を使用する必要があります。

さらに、少し高い品質が必要な場合は、IQ4_NLを使用することができます。これはこのPR のおかげで、ARM用にウェイトを再パッキングしますが、現在は4_4のみをサポートしています。ロード時間は長くなる可能性がありますが、全体的な速度は向上します。

（非推奨）Q4_0_X_X情報を表示するにはクリック

このセクションを残しているのは、オンライン再パッキングをサポートするQ4_0を使用した場合のパフォーマンスの潜在的な理論的な向上を示すためです。

AVX2システム（EPYC7702）でのベンチマークを表示するにはクリック

モデル	サイズ	パラメータ	バックエンド	スレッド数	テスト	1秒あたりのトークン数	Q4_0との比較率
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp512	204.03 ± 1.03	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp1024	282.92 ± 0.19	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp2048	259.49 ± 0.44	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg128	39.12 ± 0.27	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg256	39.31 ± 0.69	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg512	40.52 ± 0.03	100%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp512	301.02 ± 1.74	147%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp1024	287.23 ± 0.20	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp2048	262.77 ± 1.81	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg128	18.80 ± 0.99	48%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg256	24.46 ± 3.04	83%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg512	36.32 ± 3.59	90%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp512	271.71 ± 3.53	133%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp1024	279.86 ± 45.63	100%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp2048	320.77 ± 5.00	124%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg128	43.51 ± 0.05	111%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg256	43.35 ± 0.09	110%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg512	42.60 ± 0.31	105%

Q4_0_8_8は、プロンプト処理において著しい向上が見られ、テキスト生成においてもわずかな向上が見られます。

ファイルの選択方法

詳細を表示するにはクリック

Artefact2による素晴らしい記事があり、様々なパフォーマンスを示すグラフが含まれています。ここをクリック

まず、実行できるモデルのサイズを決定する必要があります。このためには、所有しているメモリ（RAM）および/またはグラフィックメモリ（VRAM）の容量を把握する必要があります。

モデルをできるだけ高速に実行したい場合は、モデル全体をGPUのグラフィックメモリにロードする必要があります。GPUの総グラフィックメモリよりも1 - 2GB小さいファイルサイズの量子化バージョンを選択してください。

絶対的な最高品質を追求する場合は、システムメモリとGPUのグラフィックメモリを合計し、その合計よりも1 - 2GB小さいファイルサイズの量子化バージョンを選択してください。

次に、「I-quant」または「K-quant」のどちらを使用するかを決定する必要があります。

あまり考えたくない場合は、K-quantを選択してください。これらの量子化バージョンは「QX_K_X」の形式で、Q5_K_Mなどがあります。

詳細を知りたい場合は、非常に有用な機能グラフを参照してください： llama.cpp機能マトリックス

基本的には、Q4以下の量子化バージョンを対象とし、cuBLAS（Nvidia）またはrocBLAS（AMD）を使用する場合は、I-quantを検討する必要があります。これらの量子化バージョンはIQX_Xの形式で、IQ3_Mなどがあります。これらは新しいバージョンで、同じサイズでより良いパフォーマンスを発揮します。

これらのI-quantはCPUでも使用できますが、対応するK-quantよりも遅いため、速度とパフォーマンスのトレードオフを考慮する必要があります。