モデル概要
モデル特徴
モデル能力
使用事例
🚀 OpenBuddyによるOpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QATのLlamacpp imatrix量子化
このプロジェクトは、llama.cpp のリリース b5627 を使用して、OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QATモデルの量子化を行っています。量子化により、モデルのサイズを削減し、推論速度を向上させることができます。
元のモデル: https://huggingface.co/OpenBuddy/OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT
すべての量子化モデルは、ここ のデータセットを使用して、imatrixオプションで作成されています。これらの量子化モデルは、LM Studio で実行することができます。また、llama.cpp やその他のllama.cppベースのプロジェクトで直接実行することもできます。
🚀 クイックスタート
プロンプトフォーマット
<|role|>system<|says|>{system_prompt}<|end|>
<|role|>user<|says|>{prompt}<|end|>
<|role|>assistant<|says|>
ファイルのダウンロード
以下の表から、必要なファイルを選択してダウンロードしてください。各ファイルには異なる量子化タイプ、ファイルサイズ、説明があります。
✨ 主な機能
埋め込み/出力重み
一部の量子化モデル(Q3_K_XL、Q4_K_Lなど)は、標準的な量子化方法を使用しており、埋め込みと出力の重みが通常のデフォルト値ではなく、Q8_0に量子化されています。
ARM/AVX情報
以前は、Q4_0_4_4/4_8/8_8をダウンロードし、これらの重みをメモリ内でインターリーブすることで、ARMおよびAVXマシンでのパフォーマンスを向上させていました。しかし、現在では、重みの「オンライン再パッキング」と呼ばれる機能があります。詳細は このPR を参照してください。Q4_0を使用し、ハードウェアが重みの再パッキングによって恩恵を受ける場合、自動的にオンザフライで再パッキングが行われます。
llama.cppビルド b4282 以降、Q4_0_X_Xファイルを実行することはできなくなり、代わりにQ4_0を使用する必要があります。
また、このPR により、IQ4_NLを使用することで、少し品質を向上させることができます。これはARM用に重みを再パッキングすることもできますが、現在は4_4のみです。読み込み時間は長くなる可能性がありますが、全体的な速度が向上します。
📦 インストール
huggingface-cliを使用したダウンロード
ダウンロード手順を表示するにはクリック
まず、hugginface-cliがインストールされていることを確認してください。
pip install -U "huggingface_hub[cli]"
次に、ダウンロードしたい特定のファイルを指定することができます。
huggingface-cli download bartowski/OpenBuddy_OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-GGUF --include "OpenBuddy_OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-Q4_K_M.gguf" --local-dir ./
モデルが50GBを超える場合、複数のファイルに分割されている可能性があります。これらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行してください。
huggingface-cli download bartowski/OpenBuddy_OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-GGUF --include "OpenBuddy_OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-Q8_0/*" --local-dir ./
新しいローカルディレクトリ(OpenBuddy_OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-Q8_0)を指定するか、すべてをそのままダウンロードすることができます(./)。
📚 ドキュメント
どのファイルを選べば良いか?
詳細を表示するにはクリック
様々なパフォーマンスを示すチャート付きの素晴らしい記事が、Artefact2によって ここ で提供されています。
まず、実行できるモデルのサイズを把握する必要があります。これには、システムのRAMとGPUのVRAMの量を確認する必要があります。
モデルをできるだけ高速に実行したい場合は、モデル全体をGPUのVRAMに収めることを目指します。GPUの総VRAMよりも1 - 2GB小さいファイルサイズの量子化モデルを選択してください。
最高の品質を求める場合は、システムRAMとGPUのVRAMを合計し、その合計よりも1 - 2GB小さいファイルサイズの量子化モデルを選択してください。
次に、「I-quant」または「K-quant」を使用するかを決定する必要があります。
あまり考えたくない場合は、K-quantのいずれかを選択してください。これらは「QX_K_X」の形式で、例えばQ5_K_Mです。
もっと詳細に調べたい場合は、この非常に便利な機能チャートをチェックすることができます。 llama.cpp feature matrix
基本的に、Q4以下を目指していて、cuBLAS(Nvidia)またはrocBLAS(AMD)を使用している場合は、I-quantを検討する必要があります。これらはIQX_Xの形式で、例えばIQ3_Mです。これらは新しく、サイズに対してより良いパフォーマンスを提供します。
これらのI-quantはCPUでも使用できますが、同等のK-quantよりも遅くなる可能性があります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。
📄 ライセンス
このプロジェクトは、Apache 2.0ライセンスの下で公開されています。詳細については、ライセンスファイル を参照してください。
謝辞
imatrixキャリブレーションデータセットの作成に協力してくれたkalomazeとDampfに感謝します。
埋め込み/出力の実験のインスピレーションを与えてくれたZeroWwに感謝します。
私の仕事を支援してくれたLM Studioに感謝します。
私の仕事を支援したい場合は、こちらのko-fiページを訪問してください。https://ko-fi.com/bartowski



