OpenBuddy - R1オープンソース対話モデル - 無料でデプロイ可能、量子化版は多様なハードウェアに適合して効率的に動作

ホーム

Openbuddy OpenBuddy R1 0528 Distill Qwen3 32B Preview0 QAT GGUF

bartowskiによって開発

これはOpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QATの量子化バージョンで、量子化技術を利用して、さまざまなハードウェア条件下でより効率的にモデルを実行できます。

大規模言語モデル複数言語対応オープンソースライセンス:Apache-2.0 #多言語対話 #高精度量子化 #長文生成

ダウンロード数 720

リリース時間 : 6/10/2025

モデル概要

OpenBuddy/OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QATに基づく量子化バージョンで、多言語テキスト生成タスクをサポートします。

モデル特徴

効率的な量子化

llama.cppのimatrix量子化技術を使用して、モデルの実行に必要なリソースを大幅に削減します。

多言語サポート

中国語、英語などの多言語のテキスト生成タスクをサポートします。

複数の量子化オプション

Q2_KからQ8_0までの複数の量子化レベルを提供し、さまざまなハードウェア条件に対応します。

モデル能力

テキスト生成

多言語処理

効率的な推論

使用事例

自然言語処理

多言語対話システム

多言語をサポートするインテリジェントな対話システムを構築します。

スムーズな多言語対話体験を実現できます

コンテンツ作成支援

ユーザーの多言語コンテンツ作成を支援します。

作成の効率と品質を向上させます

🚀 OpenBuddyによるOpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QATのLlamacpp imatrix量子化

このプロジェクトは、llama.cpp のリリース b5627 を使用して、OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QATモデルの量子化を行っています。量子化により、モデルのサイズを削減し、推論速度を向上させることができます。

元のモデル: https://huggingface.co/OpenBuddy/OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT

すべての量子化モデルは、ここのデータセットを使用して、imatrixオプションで作成されています。これらの量子化モデルは、LM Studio で実行することができます。また、llama.cpp やその他のllama.cppベースのプロジェクトで直接実行することもできます。

🚀 クイックスタート

プロンプトフォーマット

<|role|>system<|says|>{system_prompt}<|end|>
<|role|>user<|says|>{prompt}<|end|>
<|role|>assistant<|says|>

ファイルのダウンロード

以下の表から、必要なファイルを選択してダウンロードしてください。各ファイルには異なる量子化タイプ、ファイルサイズ、説明があります。

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-bf16.gguf	bf16	65.53GB	true	完全なBF16重み。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-Q8_0.gguf	Q8_0	34.82GB	false	非常に高品質で、一般的には必要ありませんが、利用可能な最大の量子化。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-Q6_K_L.gguf	Q6_K_L	27.26GB	false	埋め込みと出力の重みにQ8_0を使用。非常に高品質で、ほぼ完璧で、推奨。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-Q6_K.gguf	Q6_K	26.88GB	false	非常に高品質で、ほぼ完璧で、推奨。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-Q5_K_L.gguf	Q5_K_L	23.70GB	false	埋め込みと出力の重みにQ8_0を使用。高品質で、推奨。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-Q5_K_M.gguf	Q5_K_M	23.22GB	false	高品質で、推奨。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-Q5_K_S.gguf	Q5_K_S	22.64GB	false	高品質で、推奨。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-Q4_1.gguf	Q4_1	20.64GB	false	レガシーフォーマット、Q4_K_Sと同様のパフォーマンスですが、Appleシリコンでのトークン/ワットが向上しています。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-Q4_K_L.gguf	Q4_K_L	20.34GB	false	埋め込みと出力の重みにQ8_0を使用。品質が良く、推奨。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-Q4_K_M.gguf	Q4_K_M	19.76GB	false	品質が良く、ほとんどのユースケースでのデフォルトサイズ、推奨。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-Q4_K_S.gguf	Q4_K_S	18.77GB	false	品質がやや低いが、より多くのスペースを節約でき、推奨。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-Q4_0.gguf	Q4_0	18.70GB	false	レガシーフォーマット、ARMおよびAVX CPU推論用のオンライン再パッキングを提供。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-IQ4_NL.gguf	IQ4_NL	18.68GB	false	IQ4_XSに似ていますが、少し大きいです。ARM CPU推論用のオンライン再パッキングを提供。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-Q3_K_XL.gguf	Q3_K_XL	18.01GB	false	埋め込みと出力の重みにQ8_0を使用。品質は低いが使用可能で、低RAM環境に適しています。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-IQ4_XS.gguf	IQ4_XS	17.69GB	false	品質がまともで、Q4_K_Sより小さく、パフォーマンスは同様で、推奨。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-Q3_K_L.gguf	Q3_K_L	17.33GB	false	品質は低いが使用可能で、低RAM環境に適しています。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-Q3_K_M.gguf	Q3_K_M	15.97GB	false	低品質。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-IQ3_M.gguf	IQ3_M	14.93GB	false	中低品質、Q3_K_Mに匹敵するパフォーマンスを持つ新しい方法。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-Q3_K_S.gguf	Q3_K_S	14.39GB	false	低品質、推奨しません。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-IQ3_XS.gguf	IQ3_XS	13.70GB	false	品質は低いが、パフォーマンスはまともで、Q3_K_Sより少し良い。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-Q2_K_L.gguf	Q2_K_L	13.11GB	false	埋め込みと出力の重みにQ8_0を使用。非常に低品質ですが、意外と使用可能です。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-IQ3_XXS.gguf	IQ3_XXS	12.82GB	false	品質は低いが、パフォーマンスはまともで、Q3量子化に匹敵する。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-Q2_K.gguf	Q2_K	12.35GB	false	非常に低品質ですが、意外と使用可能です。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-IQ2_M.gguf	IQ2_M	11.36GB	false	比較的低品質ですが、SOTA技術を使用して使用可能になっています。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-IQ2_S.gguf	IQ2_S	10.52GB	false	低品質ですが、SOTA技術を使用して使用可能になっています。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-IQ2_XS.gguf	IQ2_XS	9.95GB	false	低品質ですが、SOTA技術を使用して使用可能になっています。
OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-IQ2_XXS.gguf	IQ2_XXS	9.02GB	false	非常に低品質ですが、SOTA技術を使用して使用可能になっています。

✨ 主な機能

埋め込み/出力重み

一部の量子化モデル（Q3_K_XL、Q4_K_Lなど）は、標準的な量子化方法を使用しており、埋め込みと出力の重みが通常のデフォルト値ではなく、Q8_0に量子化されています。

ARM/AVX情報

以前は、Q4_0_4_4/4_8/8_8をダウンロードし、これらの重みをメモリ内でインターリーブすることで、ARMおよびAVXマシンでのパフォーマンスを向上させていました。しかし、現在では、重みの「オンライン再パッキング」と呼ばれる機能があります。詳細はこのPR を参照してください。Q4_0を使用し、ハードウェアが重みの再パッキングによって恩恵を受ける場合、自動的にオンザフライで再パッキングが行われます。

llama.cppビルド b4282 以降、Q4_0_X_Xファイルを実行することはできなくなり、代わりにQ4_0を使用する必要があります。

また、このPR により、IQ4_NLを使用することで、少し品質を向上させることができます。これはARM用に重みを再パッキングすることもできますが、現在は4_4のみです。読み込み時間は長くなる可能性がありますが、全体的な速度が向上します。

📦 インストール

huggingface-cliを使用したダウンロード

ダウンロード手順を表示するにはクリック

まず、hugginface-cliがインストールされていることを確認してください。

pip install -U "huggingface_hub[cli]"

次に、ダウンロードしたい特定のファイルを指定することができます。

huggingface-cli download bartowski/OpenBuddy_OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-GGUF --include "OpenBuddy_OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-Q4_K_M.gguf" --local-dir ./

モデルが50GBを超える場合、複数のファイルに分割されている可能性があります。これらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行してください。

huggingface-cli download bartowski/OpenBuddy_OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-GGUF --include "OpenBuddy_OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-Q8_0/*" --local-dir ./

新しいローカルディレクトリ（OpenBuddy_OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT-Q8_0）を指定するか、すべてをそのままダウンロードすることができます（./）。