BAAI_RoboBrain2.0-7B-GGUFオープンソースモデル - 複数量化タイプで異なるハードウェア要件に適合

ホーム

BAAI RoboBrain2.0 7B GGUF

bartowskiによって開発

これはBAAIのRoboBrain2.0-7Bモデルの量子化バージョンで、llama.cppを通じて量子化処理を行い、さまざまなハードウェアのニーズに対応するための複数の量子化タイプを提供します。

大規模言語モデルオープンソースライセンス:Apache-2.0 #高効率量子化 #多ハードウェア適合 #低メモリ最適化

ダウンロード数 448

リリース時間 : 6/10/2025

モデル概要

このモデルはRoboBrain2.0-7Bの量子化バージョンで、特定の量子化技術を通じて、さまざまなハードウェア条件下でのモデルの実行効率を向上させることを目的としています。

モデル特徴

複数の量子化タイプ

Q2_KからQ8_0までの複数の量子化タイプを提供し、ユーザーはハードウェア条件とパフォーマンス要件に基づいて最適なバージョンを選択できます。

高効率実行

量子化技術を通じてモデルを最適化し、リソースが限られたデバイスでも高効率に実行できるようにします。

埋め込みと出力重みの最適化

一部の量子化モデルは、埋め込みと出力重みに特殊な処理を行い、モデルのパフォーマンスと品質を向上させます。

モデル能力

テキスト生成

多輪対話

システムプロンプトサポート

使用事例

自然言語処理

対話システム

スマート対話システムの構築に使用でき、多輪対話をサポートします。

流暢で文脈に関連した返答を提供します。

コンテンツ生成

高品質のテキストコンテンツ（記事、レポートなど）を生成します。

生成されたコンテンツは高い連貫性と論理性を持っています。

🚀 BAAIによるRoboBrain2.0-7BのLlamacpp imatrix量子化

このプロジェクトは、BAAIのRoboBrain2.0-7Bモデルを量子化したものです。量子化には、llama.cppのリリースb5596を使用しています。

🚀 クイックスタート

本プロジェクトの量子化モデルは、LM Studioで直接実行することができます。また、llama.cppやその他のllama.cppベースのプロジェクトでも実行可能です。

✨ 主な機能

多様な量子化形式：bf16、Q8_0、Q6_K_Lなど、様々な量子化形式が用意されており、ユーザーのニーズに合わせて選択できます。
高速な推論：量子化により、モデルのサイズが大幅に削減され、推論速度が向上します。
柔軟な実行環境：LM Studioやllama.cppなど、複数の実行環境で利用できます。

📦 インストール

huggingface-cliを使用したダウンロード

まず、huggingface-cliをインストールします。

pip install -U "huggingface_hub[cli]"

特定のファイルをダウンロードするには、以下のコマンドを実行します。

huggingface-cli download bartowski/BAAI_RoboBrain2.0-7B-GGUF --include "BAAI_RoboBrain2.0-7B-Q4_K_M.gguf" --local-dir ./

モデルが50GBを超える場合、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、以下のコマンドを実行します。

huggingface-cli download bartowski/BAAI_RoboBrain2.0-7B-GGUF --include "BAAI_RoboBrain2.0-7B-Q8_0/*" --local-dir ./

💻 使用例

プロンプトフォーマット

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

📚 ドキュメント

ダウンロードファイルの選択

詳細はここをクリック

Artefact2による様々なパフォーマンスを示すチャート付きの素晴らしい解説がこちらに提供されています。

まず、実行できるモデルのサイズを判断する必要があります。これには、利用可能なRAMおよび/またはVRAMの量を確認する必要があります。

モデルをできるだけ高速に実行したい場合は、モデル全体をGPUのVRAMに収めることが望ましいです。GPUの総VRAMよりも1 - 2GB小さいファイルサイズの量子化形式を選択しましょう。

最高の品質を求める場合は、システムRAMとGPUのVRAMを合計し、その合計よりも1 - 2GB小さいファイルサイズの量子化形式を選択します。

次に、'I-quant'または'K-quant'を使用するかを決定する必要があります。

あまり考えたくない場合は、K-quantのいずれかを選択しましょう。これらは'QX_K_X'の形式で、Q5_K_Mのようなものです。

もっと詳細に調べたい場合は、この非常に便利な機能チャートを参照できます。

llama.cpp feature matrix

基本的に、Q4以下を目指しており、cuBLAS（Nvidia）またはrocBLAS（AMD）を使用している場合は、I-quantを検討する必要があります。これらはIQX_Xの形式で、IQ3_Mのようなものです。これらは新しく、サイズに対してより良いパフォーマンスを提供します。

これらのI-quantはCPUでも使用できますが、同等のK-quantよりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。

ARM/AVXに関する情報

以前は、Q4_0_4_4/4_8/8_8をダウンロードし、これらの重みをメモリ内でインターリーブすることで、ARMおよびAVXマシンでのパフォーマンスを向上させていました。

しかし、現在では重みの「オンライン再パック」と呼ばれる機能があります。詳細はこのPRを参照してください。Q4_0を使用し、ハードウェアが重みの再パックによって恩恵を受ける場合、自動的に実行されます。

llama.cppビルドb4282以降、Q4_0_X_Xファイルを実行することはできなくなり、代わりにQ4_0を使用する必要があります。

さらに、このPRにより、ARM用に重みを再パックするIQ4_NLを使用することで、少し質を向上させることができます。ただし、現在は4_4のみです。読み込み時間は長くなる可能性がありますが、全体的な速度が向上します。

Q4_0_X_Xの情報（非推奨）はここをクリック

このセクションは、オンライン再パックを使用したQ4_0による潜在的な理論上のパフォーマンス向上を示すために残しています。

AVX2システム（EPYC7702）でのベンチマークはここをクリック

モデル	サイズ	パラメーター	バックエンド	スレッド	テスト	t/s	Q4_0との比率
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp512	204.03 ± 1.03	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp1024	282.92 ± 0.19	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp2048	259.49 ± 0.44	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg128	39.12 ± 0.27	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg256	39.31 ± 0.69	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg512	40.52 ± 0.03	100%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp512	301.02 ± 1.74	147%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp1024	287.23 ± 0.20	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp2048	262.77 ± 1.81	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg128	18.80 ± 0.99	48%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg256	24.46 ± 3.04	83%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg512	36.32 ± 3.59	90%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp512	271.71 ± 3.53	133%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp1024	279.86 ± 45.63	100%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp2048	320.77 ± 5.00	124%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg128	43.51 ± 0.05	111%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg256	43.35 ± 0.09	110%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg512	42.60 ± 0.31	105%

Q4_0_8_8は、プロンプト処理に大きな向上をもたらし、テキスト生成にも少しの向上をもたらします。

エンベッド/出力重み

一部の量子化形式（Q3_K_XL、Q4_K_Lなど）は、標準的な量子化方法で、エンベッディングと出力重みが通常のデフォルト値ではなくQ8_0に量子化されています。

ダウンロードファイル一覧

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
RoboBrain2.0-7B-bf16.gguf	bf16	15.24GB	false	完全なBF16重み。
RoboBrain2.0-7B-Q8_0.gguf	Q8_0	8.10GB	false	非常に高品質で、一般的には必要ないが、利用可能な最大の量子化。
RoboBrain2.0-7B-Q6_K_L.gguf	Q6_K_L	6.52GB	false	エンベッドと出力重みにQ8_0を使用。非常に高品質で、ほぼ完璧で、推奨。
RoboBrain2.0-7B-Q6_K.gguf	Q6_K	6.25GB	false	非常に高品質で、ほぼ完璧で、推奨。
RoboBrain2.0-7B-Q5_K_L.gguf	Q5_K_L	5.78GB	false	エンベッドと出力重みにQ8_0を使用。高品質で、推奨。
RoboBrain2.0-7B-Q5_K_M.gguf	Q5_K_M	5.44GB	false	高品質で、推奨。
RoboBrain2.0-7B-Q5_K_S.gguf	Q5_K_S	5.32GB	false	高品質で、推奨。
RoboBrain2.0-7B-Q4_K_L.gguf	Q4_K_L	5.09GB	false	エンベッドと出力重みにQ8_0を使用。良好な品質で、推奨。
RoboBrain2.0-7B-Q4_1.gguf	Q4_1	4.87GB	false	レガシー形式で、Q4_K_Sと同様のパフォーマンスを持ち、Apple siliconでのトークン/ワットが向上しています。
RoboBrain2.0-7B-Q4_K_M.gguf	Q4_K_M	4.68GB	false	良好な品質で、ほとんどのユースケースでのデフォルトサイズ、推奨。
RoboBrain2.0-7B-Q3_K_XL.gguf	Q3_K_XL	4.57GB	false	エンベッドと出力重みにQ8_0を使用。品質は低いが使用可能で、低RAM環境に適しています。
RoboBrain2.0-7B-Q4_K_S.gguf	Q4_K_S	4.46GB	false	品質が少し低いが、より多くのスペースを節約でき、推奨。
RoboBrain2.0-7B-Q4_0.gguf	Q4_0	4.44GB	false	レガシー形式で、ARMおよびAVX CPU推論用のオンライン再パックを提供します。
RoboBrain2.0-7B-IQ4_NL.gguf	IQ4_NL	4.44GB	false	IQ4_XSに似ていますが、少し大きいです。ARM CPU推論用のオンライン再パックを提供します。
RoboBrain2.0-7B-IQ4_XS.gguf	IQ4_XS	4.22GB	false	適度な品質で、Q4_K_Sよりも小さく、同様のパフォーマンスを持ち、推奨。
RoboBrain2.0-7B-Q3_K_L.gguf	Q3_K_L	4.09GB	false	品質は低いが使用可能で、低RAM環境に適しています。
RoboBrain2.0-7B-Q3_K_M.gguf	Q3_K_M	3.81GB	false	低品質。
RoboBrain2.0-7B-IQ3_M.gguf	IQ3_M	3.57GB	false	中程度の低品質で、Q3_K_Mに匹敵する適度なパフォーマンスを持つ新しい方法。
RoboBrain2.0-7B-Q2_K_L.gguf	Q2_K_L	3.55GB	false	エンベッドと出力重みにQ8_0を使用。非常に低品質ですが、意外と使用可能です。
RoboBrain2.0-7B-Q3_K_S.gguf	Q3_K_S	3.49GB	false	低品質で、推奨されません。
RoboBrain2.0-7B-IQ3_XS.gguf	IQ3_XS	3.35GB	false	低品質で、適度なパフォーマンスを持つ新しい方法で、Q3_K_Sよりも少し良いです。
RoboBrain2.0-7B-IQ3_XXS.gguf	IQ3_XXS	3.11GB	false	低品質で、適度なパフォーマンスを持つ新しい方法で、Q3量子化と匹敵します。
RoboBrain2.0-7B-Q2_K.gguf	Q2_K	3.02GB	false	非常に低品質ですが、意外と使用可能です。
RoboBrain2.0-7B-IQ2_M.gguf	IQ2_M	2.78GB	false	比較的低品質ですが、SOTA技術を使用して意外と使用可能です。