TheDrummer_Cydonia-24B-v4-GGUFオープンソースモデル - 限られたデバイスでも効率的に動作する実用的な選択肢

ホーム

Thedrummer Cydonia 24B V4 GGUF

bartowskiによって開発

llama.cppに基づいてTheDrummerのCydonia-24B-v4モデルを量子化したバージョンで、リソースが限られたデバイスでも高効率に動作します。

大規模言語モデル #高効率な量子化推論 #多精度適合 #低リソースデプロイ

ダウンロード数 3,869

リリース時間 : 7/18/2025

モデル概要

このモデルは量子化処理により、複数の量子化タイプを提供し、さまざまなハードウェア環境に適しており、できるだけモデルの性能を維持します。

モデル特徴

複数の量子化タイプ

bf16からIQ2_XSまでの複数の量子化タイプを提供し、ユーザーのモデル品質とファイルサイズに対するさまざまなニーズを満たします。

オンライン再パッケージング技術

一部の量子化モデルはオンライン再パッケージング技術をサポートし、ハードウェアに応じて自動的に重みを最適化し、性能を向上させます。

詳細なダウンロードと使用ガイド

ユーザーに詳細なダウンロードと使用説明を提供し、適切な量子化モデルの選択と使用を容易にします。

モデル能力

テキスト生成

高効率推論

使用事例

テキスト生成

汎用テキスト生成

会話、執筆支援などのさまざまなテキスト生成タスクに適しています。

🚀 TheDrummerによるCydonia-24B-v4のLlamacpp imatrix量子化

このプロジェクトは、TheDrummerのCydonia-24B-v4モデルを量子化したものです。量子化には、llama.cppのリリース b5934 を使用しています。

🚀 クイックスタート

モデル情報

属性	详情
量子化担当者	bartowski
パイプラインタグ	テキスト生成
ベースモデル	TheDrummer/Cydonia-24B-v4
ベースモデルとの関係	量子化済み

量子化方法

llama.cppのリリース b5934 を使用して量子化を行っています。すべての量子化は、こちらのデータセットを用いて、imatrixオプションで作成されています。

実行方法

LM Studio で実行できます。
llama.cpp または他のllama.cppベースのプロジェクトで直接実行することもできます。

✨ 主な機能

様々な量子化タイプのモデルを提供し、ユーザーのハードウェア環境に合わせて選択できます。
一部の量子化モデルでは、埋め込みおよび出力重みをQ8_0に量子化することで、品質を向上させています。
オンライン再パッキング機能により、ARMおよびAVXマシンでのパフォーマンスを向上させます。

📦 インストール

huggingface-cliを使用したダウンロード

まず、huggingface-cliがインストールされていることを確認してください。以下のコマンドでインストールできます。

pip install -U "huggingface_hub[cli]"

特定のファイルをダウンロードするには、以下のコマンドを使用します。

huggingface-cli download bartowski/TheDrummer_Cydonia-24B-v4-GGUF --include "TheDrummer_Cydonia-24B-v4-Q4_K_M.gguf" --local-dir ./

モデルが50GBを超える場合、複数のファイルに分割されています。すべてのファイルをローカルフォルダにダウンロードするには、以下のコマンドを実行します。

huggingface-cli download bartowski/TheDrummer_Cydonia-24B-v4-GGUF --include "TheDrummer_Cydonia-24B-v4-Q8_0/*" --local-dir ./

新しいローカルディレクトリを指定するか、すべてを現在のディレクトリにダウンロードすることができます。

💻 使用例

基本的な使用法

<s>[SYSTEM_PROMPT]{system_prompt}[/SYSTEM_PROMPT][INST]{prompt}[/INST]

高度な使用法

特定の量子化モデルを選択し、LM Studioまたはllama.cppを使用して実行することができます。具体的な選択方法については、「どのファイルを選べばいいですか？」のセクションを参照してください。

📚 ドキュメント

ダウンロード可能なファイル

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
Cydonia-24B-v4-bf16.gguf	bf16	47.15GB	false	完全なBF16重み。
Cydonia-24B-v4-Q8_0.gguf	Q8_0	25.05GB	false	非常に高い品質、通常は必要ないが最大限の量子化。
Cydonia-24B-v4-Q6_K_L.gguf	Q6_K_L	19.67GB	false	埋め込みおよび出力重みをQ8_0に使用。非常に高い品質、ほぼ完璧、推奨。
Cydonia-24B-v4-Q6_K.gguf	Q6_K	19.35GB	false	非常に高い品質、ほぼ完璧、推奨。
Cydonia-24B-v4-Q5_K_L.gguf	Q5_K_L	17.18GB	false	埋め込みおよび出力重みをQ8_0に使用。高品質、推奨。
Cydonia-24B-v4-Q5_K_M.gguf	Q5_K_M	16.76GB	false	高品質、推奨。
Cydonia-24B-v4-Q5_K_S.gguf	Q5_K_S	16.30GB	false	高品質、推奨。
Cydonia-24B-v4-Q4_1.gguf	Q4_1	14.87GB	false	レガシー形式、Q4_K_Sと同様のパフォーマンスが得られますが、Apple Siliconでのトークン/ワットが向上します。
Cydonia-24B-v4-Q4_K_L.gguf	Q4_K_L	14.83GB	false	埋め込みおよび出力重みをQ8_0に使用。良好な品質、推奨。
Cydonia-24B-v4-Q4_K_M.gguf	Q4_K_M	14.33GB	false	良好な品質、ほとんどのユースケースでのデフォルトサイズ、推奨。
Cydonia-24B-v4-Q4_K_S.gguf	Q4_K_S	13.55GB	false	品質がやや低いが、より多くのスペースを節約できます、推奨。
Cydonia-24B-v4-Q4_0.gguf	Q4_0	13.49GB	false	レガシー形式、ARMおよびAVX CPU推論用のオンライン再パッキングを提供します。
Cydonia-24B-v4-IQ4_NL.gguf	IQ4_NL	13.47GB	false	IQ4_XSに似ていますが、やや大きい。ARM CPU推論用のオンライン再パッキングを提供します。
Cydonia-24B-v4-Q3_K_XL.gguf	Q3_K_XL	12.99GB	false	埋め込みおよび出力重みをQ8_0に使用。品質は低いが使用可能、低RAM環境に適しています。
Cydonia-24B-v4-IQ4_XS.gguf	IQ4_XS	12.76GB	false	適度な品質、Q4_K_Sより小さく、同様のパフォーマンスを持つ、推奨。
Cydonia-24B-v4-Q3_K_L.gguf	Q3_K_L	12.40GB	false	品質は低いが使用可能、低RAM環境に適しています。
Cydonia-24B-v4-Q3_K_M.gguf	Q3_K_M	11.47GB	false	低品質。
Cydonia-24B-v4-IQ3_M.gguf	IQ3_M	10.65GB	false	中程度の低品質、Q3_K_Mと同等のパフォーマンスを持つ新しい方法。
Cydonia-24B-v4-Q3_K_S.gguf	Q3_K_S	10.40GB	false	低品質、推奨しません。
Cydonia-24B-v4-IQ3_XS.gguf	IQ3_XS	9.91GB	false	品質は低いが、適度なパフォーマンスを持つ新しい方法、Q3_K_Sよりやや優れています。
Cydonia-24B-v4-Q2_K_L.gguf	Q2_K_L	9.55GB	false	埋め込みおよび出力重みをQ8_0に使用。非常に低い品質ですが、意外と使用可能です。
Cydonia-24B-v4-IQ3_XXS.gguf	IQ3_XXS	9.28GB	false	品質は低いが、適度なパフォーマンスを持つ新しい方法、Q3量子化と同等。
Cydonia-24B-v4-Q2_K.gguf	Q2_K	8.89GB	false	非常に低い品質ですが、意外と使用可能です。
Cydonia-24B-v4-IQ2_M.gguf	IQ2_M	8.11GB	false	比較的低い品質ですが、最先端の技術を使用して意外と使用可能です。
Cydonia-24B-v4-IQ2_S.gguf	IQ2_S	7.48GB	false	低品質ですが、最先端の技術を使用して使用可能です。
Cydonia-24B-v4-IQ2_XS.gguf	IQ2_XS	7.21GB	false	低品質ですが、最先端の技術を使用して使用可能です。

埋め込み/出力重み

一部の量子化モデル（Q3_K_XL、Q4_K_Lなど）では、標準的な量子化方法を使用し、埋め込みおよび出力重みを通常のデフォルト値ではなくQ8_0に量子化しています。

ARM/AVX情報

以前は、Q4_0_4_4/4_8/8_8をダウンロードし、メモリ内で重みをインターリーブすることで、ARMおよびAVXマシンでのパフォーマンスを向上させていました。現在は、「オンライン再パッキング」と呼ばれる機能があり、詳細はこのPR を参照してください。Q4_0を使用し、ハードウェアが重みの再パッキングに適している場合、自動的に実行されます。

llama.cppビルド b4282 以降、Q4_0_X_Xファイルは実行できなくなり、代わりにQ4_0を使用する必要があります。

また、このPR により、IQ4_NLを使用することで、ARM用に重みを再パッキングすることができます（現時点では4_4のみ）。読み込み時間は長くなる可能性がありますが、全体的な速度が向上します。