TheDrummer_Cydonia-24B-v3-GGUFオープンソースモデル - 多様な量子化オプションで異なるハードウェアシナリオに適合

ホーム

Thedrummer Cydonia 24B V3 GGUF

bartowskiによって開発

これはTheDrummerのCydonia-24B-v3モデルの量子化バージョンで、llama.cppを使用して量子化処理を行い、さまざまなハードウェアや使用シーンに適応するための複数の量子化オプションを提供しています。

大規模言語モデルオープンソースライセンス:その他 #多段階量子化選択 #大規模モデルの軽量化 #オンライン再パッケージ最適化

ダウンロード数 1,326

リリース時間 : 6/4/2025

モデル概要

このモデルはCydonia-24B-v3の量子化バージョンで、テキスト生成タスクに特化しており、さまざまな量子化技術を通じて、さまざまなハードウェアでのモデルのパフォーマンスと効率を最適化しています。

モデル特徴

複数の量子化タイプ

豊富な量子化タイプの選択肢を提供しており、各タイプはファイルサイズ、品質、パフォーマンスにそれぞれ特徴があり、さまざまなユーザーのニーズを満たします。

オンライン再パッケージ機能

一部の量子化モデルはオンライン再パッケージ機能をサポートしており、ハードウェアの状況に応じて自動的に重みを最適化し、パフォーマンスを向上させます。

詳細な選択ガイド

ユーザーに詳細なファイル選択ガイドを提供し、ユーザーが自身のハードウェア構成とニーズに基づいて適切な量子化モデルを選択できるように支援します。

モデル能力

テキスト生成

使用事例

テキスト生成

汎用テキスト生成

記事作成、会話生成など、さまざまなテキスト生成タスクに適しています。

🚀 TheDrummerによるCydonia-24B-v3のLlamacpp imatrix量子化

このプロジェクトは、TheDrummerによるCydonia-24B-v3モデルの量子化バージョンを提供します。量子化にはllama.cppを使用しており、様々な量子化形式のモデルを提供しています。

🚀 クイックスタート

量子化に使用された情報

量子化担当者: bartowski
パイプラインタグ: text-generation
ベースモデル: TheDrummer/Cydonia-24B-v3
ベースモデルの関係: 量子化
ライセンス: other

量子化方法

llama.cpp のリリース b5568 を使用して量子化を行っています。すべての量子化は、ここのデータセットを用いてimatrixオプションで作成されています。

モデルの実行方法

LM Studio で実行することができます。
llama.cpp または他のllama.cppベースのプロジェクトで直接実行することもできます。

✨ 主な機能

様々な量子化形式のCydonia-24B-v3モデルを提供しています。
モデルのダウンロード方法や実行方法が明確に記載されています。

📦 インストール

huggingface-cliを使用したダウンロード

まず、huggingface-cliをインストールします。

pip install -U "huggingface_hub[cli]"

特定のファイルをダウンロードするには、以下のコマンドを使用します。

huggingface-cli download bartowski/TheDrummer_Cydonia-24B-v3-GGUF --include "TheDrummer_Cydonia-24B-v3-Q4_K_M.gguf" --local-dir ./

モデルが50GB以上の場合、複数のファイルに分割されています。すべてのファイルをローカルフォルダにダウンロードするには、以下のコマンドを実行します。

huggingface-cli download bartowski/TheDrummer_Cydonia-24B-v3-GGUF --include "TheDrummer_Cydonia-24B-v3-Q8_0/*" --local-dir ./

新しいローカルディレクトリを指定するか、現在のディレクトリ (./) にダウンロードすることができます。

💻 使用例

モデルの選択

どのファイルを選ぶべきかについては、以下の点を考慮してください。

メモリ容量: まず、実行できるモデルのサイズを決定するために、システムのRAMとGPUのVRAMの容量を確認します。
- できるだけ高速にモデルを実行したい場合: GPUのVRAMにすべてのモデルを収めることができるように、GPUの総VRAMよりも1 - 2GB小さいファイルサイズの量子化モデルを選びます。
- 最高の品質を求める場合: システムのRAMとGPUのVRAMを合計し、その合計よりも1 - 2GB小さいファイルサイズの量子化モデルを選びます。
量子化形式: 'I-quant' または 'K-quant' を使用するかを決定します。
- あまり考えたくない場合: 'QX_K_X' 形式のK-quantを選びます。例えば、Q5_K_M。
- 詳細を調べたい場合: llama.cpp feature matrix を参照してください。基本的に、Q4以下の量子化を目指し、cuBLAS (Nvidia) またはrocBLAS (AMD) を使用している場合は、'IQX_X' 形式のI-quantを検討してください。例えば、IQ3_M。これらは新しく、サイズに対してより良いパフォーマンスを提供します。ただし、CPUで使用する場合、K-quantよりも遅くなる可能性があります。

ダウンロード

特定のファイルをダウンロードするには、以下のコマンドを使用します。

huggingface-cli download bartowski/TheDrummer_Cydonia-24B-v3-GGUF --include "TheDrummer_Cydonia-24B-v3-Q4_K_M.gguf" --local-dir ./

📚 詳細ドキュメント

プロンプト形式

プロンプト形式は見つかりませんでした。元のモデルページを確認してください。

ダウンロード可能なファイル

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
Cydonia-24B-v3-bf16.gguf	bf16	47.15GB	false	完全なBF16ウェイト。
Cydonia-24B-v3-Q8_0.gguf	Q8_0	25.05GB	false	非常に高品質で、一般的には必要ありませんが、利用可能な最大の量子化。
Cydonia-24B-v3-Q6_K_L.gguf	Q6_K_L	19.67GB	false	エンベッドと出力ウェイトにQ8_0を使用。非常に高品質で、ほぼ完璧で、おすすめ。
Cydonia-24B-v3-Q6_K.gguf	Q6_K	19.35GB	false	非常に高品質で、ほぼ完璧で、おすすめ。
Cydonia-24B-v3-Q5_K_L.gguf	Q5_K_L	17.18GB	false	エンベッドと出力ウェイトにQ8_0を使用。高品質で、おすすめ。
Cydonia-24B-v3-Q5_K_M.gguf	Q5_K_M	16.76GB	false	高品質で、おすすめ。
Cydonia-24B-v3-Q5_K_S.gguf	Q5_K_S	16.30GB	false	高品質で、おすすめ。
Cydonia-24B-v3-Q4_1.gguf	Q4_1	14.87GB	false	レガシー形式。Q4_K_Sと同様のパフォーマンスが得られますが、Appleシリコンではトークン/ワットが向上します。
Cydonia-24B-v3-Q4_K_L.gguf	Q4_K_L	14.83GB	false	エンベッドと出力ウェイトにQ8_0を使用。良い品質で、おすすめ。
Cydonia-24B-v3-Q4_K_M.gguf	Q4_K_M	14.33GB	false	良い品質で、ほとんどのユースケースでのデフォルトサイズ、おすすめ。
Cydonia-24B-v3-Q4_K_S.gguf	Q4_K_S	13.55GB	false	品質が少し低いですが、より多くのスペースを節約できます、おすすめ。
Cydonia-24B-v3-Q4_0.gguf	Q4_0	13.49GB	false	レガシー形式。ARMおよびAVX CPU推論用のオンライン再パッキングを提供します。
Cydonia-24B-v3-IQ4_NL.gguf	IQ4_NL	13.47GB	false	IQ4_XSに似ていますが、少し大きいです。ARM CPU推論用のオンライン再パッキングを提供します。
Cydonia-24B-v3-Q3_K_XL.gguf	Q3_K_XL	12.99GB	false	エンベッドと出力ウェイトにQ8_0を使用。品質は低いですが使用可能で、低RAM環境に適しています。
Cydonia-24B-v3-IQ4_XS.gguf	IQ4_XS	12.76GB	false	妥当な品質で、Q4_K_Sよりも小さく、同様のパフォーマンスが得られます、おすすめ。
Cydonia-24B-v3-Q3_K_L.gguf	Q3_K_L	12.40GB	false	品質は低いですが使用可能で、低RAM環境に適しています。
Cydonia-24B-v3-Q3_K_M.gguf	Q3_K_M	11.47GB	false	低品質。
Cydonia-24B-v3-IQ3_M.gguf	IQ3_M	10.65GB	false	中程度の低品質ですが、Q3_K_Mに匹敵する妥当なパフォーマンスを持つ新しい方法。
Cydonia-24B-v3-Q3_K_S.gguf	Q3_K_S	10.40GB	false	低品質で、おすすめしません。
Cydonia-24B-v3-IQ3_XS.gguf	IQ3_XS	9.91GB	false	品質は低いですが、妥当なパフォーマンスを持つ新しい方法。Q3_K_Sよりも少し良いです。
Cydonia-24B-v3-Q2_K_L.gguf	Q2_K_L	9.55GB	false	エンベッドと出力ウェイトにQ8_0を使用。非常に低品質ですが、意外と使用可能です。
Cydonia-24B-v3-IQ3_XXS.gguf	IQ3_XXS	9.28GB	false	品質は低いですが、妥当なパフォーマンスを持つ新しい方法。Q3量子化と匹敵します。
Cydonia-24B-v3-Q2_K.gguf	Q2_K	8.89GB	false	非常に低品質ですが、意外と使用可能です。
Cydonia-24B-v3-IQ2_M.gguf	IQ2_M	8.11GB	false	比較的低品質ですが、SOTA技術を使用しているため、意外と使用可能です。
Cydonia-24B-v3-IQ2_S.gguf	IQ2_S	7.48GB	false	低品質ですが、SOTA技術を使用しているため、使用可能です。
Cydonia-24B-v3-IQ2_XS.gguf	IQ2_XS	7.21GB	false	低品質ですが、SOTA技術を使用しているため、使用可能です。
Cydonia-24B-v3-IQ2_XXS.gguf	IQ2_XXS	6.55GB	false	非常に低品質ですが、SOTA技術を使用しているため、使用可能です。

エンベッド/出力ウェイト

一部の量子化形式 (Q3_K_XL、Q4_K_Lなど) は、標準的な量子化方法を使用しており、エンベッドと出力ウェイトが通常のデフォルト値ではなくQ8_0に量子化されています。

ARM/AVX情報

以前は、Q4_0_4_4/4_8/8_8をダウンロードし、ARMおよびAVXマシンでのパフォーマンスを向上させるために、メモリ内でウェイトをインターリーブしていました。しかし、現在は「オンライン再パッキング」と呼ばれる機能があります。詳細はこのPR を参照してください。Q4_0を使用し、ハードウェアがウェイトの再パッキングによって恩恵を受ける場合、自動的に実行されます。

llama.cppビルド b4282 以降、Q4_0_X_Xファイルを実行することはできなくなり、代わりにQ4_0を使用する必要があります。

また、このPR により、ARM用にウェイトを再パッキングするIQ4_NLを使用することで、少し良い品質を得ることができます。ただし、現在は4_4のみサポートされています。ロード時間は遅くなる可能性がありますが、全体的な速度が向上します。

クリックしてQ4_0_X_X情報 (非推奨) を表示

このセクションは、オンライン再パッキングを使用したQ4_0の潜在的な理論上のパフォーマンス向上を示すために残しています。

AVX2システム (EPYC7702) でのベンチマークを表示するにはクリック

モデル	サイズ	パラメータ	バックエンド	スレッド	テスト	トークン/秒	% (Q4_0と比較)
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp512	204.03 ± 1.03	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp1024	282.92 ± 0.19	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp2048	259.49 ± 0.44	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg128	39.12 ± 0.27	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg256	39.31 ± 0.69	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg512	40.52 ± 0.03	100%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp512	301.02 ± 1.74	147%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp1024	287.23 ± 0.20	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp2048	262.77 ± 1.81	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg128	18.80 ± 0.99	48%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg256	24.46 ± 3.04	83%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg512	36.32 ± 3.59	90%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp512	271.71 ± 3.53	133%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp1024	279.86 ± 45.63	100%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp2048	320.77 ± 5.00	124%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg128	43.51 ± 0.05	111%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg256	43.35 ± 0.09	110%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg512	42.60 ± 0.31	105%