mlabonne_gemma-3-12b-it-abliterated-GGUFオープンソースモデル - 無料でテキスト生成タスクをデプロイ可能

ホーム

Mlabonne Gemma 3 12b It Abliterated GGUF

bartowskiによって開発

mlabonne/gemma-3-12b-it-abliteratedモデルを基にした量子化バージョンで、llama.cppを使用してimatrix量子化を行い、テキスト生成タスクに適しています。

大規模言語モデル #高精度量子化 #マルチモーダルビジョン #低リソース展開

ダウンロード数 7,951

リリース時間 : 3/18/2025

モデル概要

これは12Bパラメータ規模のGemmaモデルの量子化バージョンで、テキスト生成タスクをサポートし、ローカル推論環境に適しています。

モデル特徴

効率的な量子化

llama.cppのimatrix量子化技術を使用し、複数の量子化オプションを提供し、モデルサイズと性能のバランスを取ります。

ローカル推論サポート

LM Studioやllama.cppなどのローカル環境で実行可能で、オフライン使用に適しています。

複数量子化オプション

BF16からQ2_Kまでの複数の量子化レベルを提供し、さまざまなハードウェアと性能ニーズに対応します。

モデル能力

テキスト生成

対話システム

命令追従

使用事例

対話システム

インテリジェントアシスタント

ローカルで動作するインテリジェントな対話アシスタントを構築

コンテンツ生成

テキスト創作

記事やストーリーなどのクリエイティブなコンテンツを生成するために使用

量子化担当者: bartowski パイプラインタグ: image-text-to-text ライセンス: gemma ベースモデル: mlabonne/gemma-3-12b-it-abliterated

mlabonneによるgemma-3-12b-it-abliteratedのLlamacpp imatrix量子化

量子化には、llama.cppのリリース b4896 を使用します。

オリジナルモデル: https://huggingface.co/mlabonne/gemma-3-12b-it-abliterated

すべての量子化は、ここのデータセットを使ってimatrixオプションで行われました。

LM Studio で実行します。

llama.cpp または他のllama.cppベースのプロジェクトで直接実行します。

プロンプト形式

<bos><start_of_turn>user
{システムプロンプト}

{プロンプト}<end_of_turn>
<start_of_turn>model

以下からファイル（ブランチ全体ではなく）をダウンロードします:

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
mmproj-gemma-3-12b-it-abliterated-f32.gguf	f32	1.69GB	false	ビジョンに必要なF32形式のMMPROJファイル。
mmproj-gemma-3-12b-it-abliterated-f16.gguf	f16	854MB	false	ビジョンに必要なF16形式のMMPROJファイル。
gemma-3-12b-it-abliterated-bf16.gguf	bf16	23.54GB	false	完全なBF16重み。
gemma-3-12b-it-abliterated-Q8_0.gguf	Q8_0	12.51GB	false	非常に高品質で、一般的には不要ですが、利用可能な最大の量子化。
gemma-3-12b-it-abliterated-Q6_K_L.gguf	Q6_K_L	9.90GB	false	埋め込みと出力の重みにQ8_0を使用。非常に高品質で、ほぼ完璧で、推奨。
gemma-3-12b-it-abliterated-Q6_K.gguf	Q6_K	9.66GB	false	非常に高品質で、ほぼ完璧で、推奨。
gemma-3-12b-it-abliterated-Q5_K_L.gguf	Q5_K_L	8.69GB	false	埋め込みと出力の重みにQ8_0を使用。高品質で、推奨。
gemma-3-12b-it-abliterated-Q5_K_M.gguf	Q5_K_M	8.45GB	false	高品質で、推奨。
gemma-3-12b-it-abliterated-Q5_K_S.gguf	Q5_K_S	8.23GB	false	高品質で、推奨。
gemma-3-12b-it-abliterated-Q4_1.gguf	Q4_1	7.56GB	false	レガシー形式で、Q4_K_Sと同様のパフォーマンスですが、Appleシリコンでのトークン/ワットが向上。
gemma-3-12b-it-abliterated-Q4_K_L.gguf	Q4_K_L	7.54GB	false	埋め込みと出力の重みにQ8_0を使用。良質で、推奨。
gemma-3-12b-it-abliterated-Q4_K_M.gguf	Q4_K_M	7.30GB	false	良質で、ほとんどのユースケースのデフォルトサイズで、推奨。
gemma-3-12b-it-abliterated-Q4_K_S.gguf	Q4_K_S	6.94GB	false	少し品質が低いですが、より多くのスペースを節約でき、推奨。
gemma-3-12b-it-abliterated-Q4_0.gguf	Q4_0	6.91GB	false	レガシー形式で、ARMおよびAVX CPU推論用のオンライン再パッキングを提供。
gemma-3-12b-it-abliterated-IQ4_NL.gguf	IQ4_NL	6.89GB	false	IQ4_XSに似ていますが、少し大きいです。ARM CPU推論用のオンライン再パッキングを提供。
gemma-3-12b-it-abliterated-Q3_K_XL.gguf	Q3_K_XL	6.72GB	false	埋め込みと出力の重みにQ8_0を使用。品質は低いですが使用可能で、低RAM環境に適しています。
gemma-3-12b-it-abliterated-IQ4_XS.gguf	IQ4_XS	6.55GB	false	まともな品質で、Q4_K_Sより小さく、同様のパフォーマンスで、推奨。
gemma-3-12b-it-abliterated-Q3_K_L.gguf	Q3_K_L	6.48GB	false	品質は低いですが使用可能で、低RAM環境に適しています。
gemma-3-12b-it-abliterated-Q3_K_M.gguf	Q3_K_M	6.01GB	false	低品質。
gemma-3-12b-it-abliterated-IQ3_M.gguf	IQ3_M	5.66GB	false	中低品質で、Q3_K_Mに匹敵するまともなパフォーマンスを持つ新しい方法。
gemma-3-12b-it-abliterated-Q3_K_S.gguf	Q3_K_S	5.46GB	false	低品質で、推奨しません。
gemma-3-12b-it-abliterated-IQ3_XS.gguf	IQ3_XS	5.21GB	false	低品質で、まともなパフォーマンスを持つ新しい方法で、Q3_K_Sより少し良い。
gemma-3-12b-it-abliterated-Q2_K_L.gguf	Q2_K_L	5.01GB	false	埋め込みと出力の重みにQ8_0を使用。非常に低品質ですが、意外と使用可能。
gemma-3-12b-it-abliterated-IQ3_XXS.gguf	IQ3_XXS	4.78GB	false	低品質で、まともなパフォーマンスを持つ新しい方法で、Q3量子化に匹敵。
gemma-3-12b-it-abliterated-Q2_K.gguf	Q2_K	4.77GB	false	非常に低品質ですが、意外と使用可能。
gemma-3-12b-it-abliterated-IQ2_M.gguf	IQ2_M	4.31GB	false	比較的低品質で、最先端の技術を使って意外と使用可能。
gemma-3-12b-it-abliterated-IQ2_S.gguf	IQ2_S	4.02GB	false	低品質で、最先端の技術を使って使用可能。
gemma-3-12b-it-abliterated-IQ2_XS.gguf	IQ2_XS	3.84GB	false	低品質で、最先端の技術を使って使用可能。

埋め込み/出力の重み

これらの量子化の一部（Q3_K_XL、Q4_K_Lなど）は、標準的な量子化方法であり、埋め込みと出力の重みは通常のデフォルト値ではなくQ8_0に量子化されています。

huggingface-cliを使用したダウンロード

ダウンロード手順を表示するにはクリック

まず、hugginface-cliがインストールされていることを確認してください。

pip install -U "huggingface_hub[cli]"

次に、目的の特定のファイルを指定できます。

huggingface-cli download bartowski/mlabonne_gemma-3-12b-it-abliterated-GGUF --include "mlabonne_gemma-3-12b-it-abliterated-Q4_K_M.gguf" --local-dir ./

モデルが50GBより大きい場合、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行します。

huggingface-cli download bartowski/mlabonne_gemma-3-12b-it-abliterated-GGUF --include "mlabonne_gemma-3-12b-it-abliterated-Q8_0/*" --local-dir ./

新しいローカルディレクトリ（mlabonne_gemma-3-12b-it-abliterated-Q8_0）を指定するか、すべてをそのままダウンロード（./）することができます。

ARM/AVXに関する情報

以前は、Q4_0_4_4/4_8/8_8をダウンロードし、これらの重みはメモリ内でインターリーブされており、ARMおよびAVXマシンで一度により多くのデータをロードすることでパフォーマンスを向上させていました。

しかし、現在は重みの「オンライン再パッキング」と呼ばれる機能があります。詳細はこのPR を参照してください。Q4_0を使用し、ハードウェアが重みの再パッキングによって恩恵を受ける場合、自動的にオンザフライで再パッキングが行われます。

llama.cppビルド b4282 以降、Q4_0_X_Xファイルを実行することはできず、代わりにQ4_0を使用する必要があります。

さらに、少し高い品質を得たい場合は、このPR のおかげでIQ4_NLを使用できます。これはARM用に重みを再パッキングすることもできますが、現時点では4_4のみです。ロード時間が長くなる可能性がありますが、全体的な速度が向上します。

Q4_0_X_Xの情報を表示するにはクリック（非推奨）

このセクションは、オンライン再パッキングを使用したQ4_0の潜在的な理論上のパフォーマンス向上を示すために残しています。

AVX2システム（EPYC7702）でのベンチマークを表示するにはクリック

モデル	サイズ	パラメータ	バックエンド	スレッド	テスト	t/s	% (vs Q4_0)
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp512	204.03 ± 1.03	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp1024	282.92 ± 0.19	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp2048	259.49 ± 0.44	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg128	39.12 ± 0.27	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg256	39.31 ± 0.69	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg512	40.52 ± 0.03	100%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp512	301.02 ± 1.74	147%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp1024	287.23 ± 0.20	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp2048	262.77 ± 1.81	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg128	18.80 ± 0.99	48%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg256	24.46 ± 3.04	83%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg512	36.32 ± 3.59	90%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp512	271.71 ± 3.53	133%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp1024	279.86 ± 45.63	100%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp2048	320.77 ± 5.00	124%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg128	43.51 ± 0.05	111%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg256	43.35 ± 0.09	110%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg512	42.60 ± 0.31	105%

Q4_0_8_8は、プロンプト処理に大幅な向上をもたらし、テキスト生成にも若干の向上をもたらします。

どのファイルを選べばいいですか？

詳細を表示するにはここをクリック

様々なパフォーマンスを示すグラフ付きの素晴らしい記事がArtefact2によってここに提供されています。

まず、実行できるモデルのサイズを把握する必要があります。これを行うには、システムに搭載されているRAMと/またはVRAMの量を把握する必要があります。

モデルをできるだけ高速に実行したい場合は、モデル全体をGPUのVRAMに収める必要があります。GPUの総VRAMよりも1 - 2GB小さいファイルサイズの量子化を選びましょう。

絶対的な最高品質を望む場合は、システムのRAMとGPUのVRAMを合計し、同様にその合計よりも1 - 2GB小さいファイルサイズの量子化を選びましょう。

次に、「I量子化」または「K量子化」を使用するかを決める必要があります。

あまり考えたくない場合は、K量子化のいずれかを選びましょう。これらは 'QX_K_X' の形式で、Q5_K_Mのようなものです。

もっと詳細を知りたい場合は、この非常に便利な機能チャートを参照できます。

llama.cpp機能マトリックス

基本的に、Q4以下を目指し、cuBLAS（Nvidia）またはrocBLAS（AMD）を使用している場合は、I量子化を検討する必要があります。これらはIQX_Xの形式で、IQ3_Mのようなものです。これらは新しく、サイズに対してより良いパフォーマンスを提供します。

これらのI量子化はCPUでも使用できますが、同等のK量子化よりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決める必要があります。

I量子化はVulcanと互換性がありません。VulcanもAMDのものです。したがって、AMDカードを持っている場合は、rocBLASビルドまたはVulcanビルドを使用しているかを再度確認してください。この記事を書いている時点で、LM StudioにはROCmサポート付きのプレビュー版があり、他の推論エンジンにはROCm用の特定のビルドがあります。