mlabonne_gemma-3-27b-it-abliterated-GGUFオープンソースモデル - 無料のテキスト生成タスクをサポート！

ホーム

Mlabonne Gemma 3 27b It Abliterated GGUF

bartowskiによって開発

Google Gemma 3Bモデルを基にした量子化バージョンで、llama.cppを使用して最適化され、様々な量子化レベルをサポートし、テキスト生成タスクに適しています。

大規模言語モデル #マルチモーダル視覚推論 #高精度量子化 #低リソース展開

ダウンロード数 7,217

リリース時間 : 3/17/2025

モデル概要

これは量子化されたGemma 3Bモデルのバージョンで、llama.cppツールによって最適化され、高精度から低精度までの様々な量子化オプションを提供し、異なるハードウェア環境での推論ニーズに適しています。

モデル特徴

様々な量子化オプション

BF16からQ2_Kまでの様々な量子化レベルを提供し、異なるハードウェアと性能ニーズに対応します。

imatrix最適化

llama.cppのimatrixオプションを使用して量子化を行い、量子化モデルの性能を向上させました。

視覚タスクサポート

F32とF16形式のMMPROJファイルを提供し、視覚関連タスクをサポートします。

モデル能力

テキスト生成

対話システム

指示追従

使用事例

対話システム

インテリジェントアシスタント

インテリジェントな対話アシスタントを構築し、ユーザーの質問に答えるために使用されます。

コンテンツ生成

テキスト創作

ユーザーが創造的なテキストコンテンツを生成するのを支援します。

量子化担当者: bartowski パイプラインタグ: image-text-to-text ライセンス: gemma ベースモデル: mlabonne/gemma-3-27b-it-abliterated

mlabonneによるgemma-3-27b-it-abliteratedのLlamacpp imatrix量子化

llama.cpp のリリース b4896 を使用して量子化を行っています。

オリジナルモデル: https://huggingface.co/mlabonne/gemma-3-27b-it-abliterated

すべての量子化は、ここのデータセットを使ってimatrixオプションで行われています。

LM Studio で実行することができます。

llama.cpp または他のllama.cppベースのプロジェクトで直接実行することもできます。

プロンプトフォーマット

<bos><start_of_turn>user
{システムプロンプト}

{プロンプト}<end_of_turn>
<start_of_turn>model

以下からファイル（ブランチ全体ではない）をダウンロードします:

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
mmproj-gemma-3-27b-it-abliterated-f32.gguf	f32	1.69GB	false	ビジョンに必要なF32形式のMMPROJファイル。
mmproj-gemma-3-27b-it-abliterated-f16.gguf	f16	858MB	false	ビジョンに必要なF16形式のMMPROJファイル。
gemma-3-27b-it-abliterated-bf16.gguf	bf16	54.03GB	true	完全なBF16重み。
gemma-3-27b-it-abliterated-Q8_0.gguf	Q8_0	28.71GB	false	非常に高品質で、一般的には必要ありませんが、利用可能な最大の量子化。
gemma-3-27b-it-abliterated-Q6_K_L.gguf	Q6_K_L	22.51GB	false	埋め込みと出力の重みにQ8_0を使用。非常に高品質で、ほぼ完璧で、推奨。
gemma-3-27b-it-abliterated-Q6_K.gguf	Q6_K	22.17GB	false	非常に高品質で、ほぼ完璧で、推奨。
gemma-3-27b-it-abliterated-Q5_K_L.gguf	Q5_K_L	19.61GB	false	埋め込みと出力の重みにQ8_0を使用。高品質で、推奨。
gemma-3-27b-it-abliterated-Q5_K_M.gguf	Q5_K_M	19.27GB	false	高品質で、推奨。
gemma-3-27b-it-abliterated-Q5_K_S.gguf	Q5_K_S	18.77GB	false	高品質で、推奨。
gemma-3-27b-it-abliterated-Q4_1.gguf	Q4_1	17.17GB	false	レガシー形式で、Q4_K_Sと同様の性能で、Apple Siliconでのtokens/wattが向上。
gemma-3-27b-it-abliterated-Q4_K_L.gguf	Q4_K_L	16.89GB	false	埋め込みと出力の重みにQ8_0を使用。品質が良好で、推奨。
gemma-3-27b-it-abliterated-Q4_K_M.gguf	Q4_K_M	16.55GB	false	品質が良好で、ほとんどのユースケースでのデフォルトサイズ、推奨。
gemma-3-27b-it-abliterated-Q4_K_S.gguf	Q4_K_S	15.67GB	false	品質がわずかに低いが、より多くのスペースを節約できる、推奨。
gemma-3-27b-it-abliterated-Q4_0.gguf	Q4_0	15.62GB	false	レガシー形式で、ARMおよびAVX CPU推論のためのオンライン再パッキングを提供。
gemma-3-27b-it-abliterated-IQ4_NL.gguf	IQ4_NL	15.57GB	false	IQ4_XSに似ているが、少し大きい。ARM CPU推論のためのオンライン再パッキングを提供。
gemma-3-27b-it-abliterated-Q3_K_XL.gguf	Q3_K_XL	14.88GB	false	埋め込みと出力の重みにQ8_0を使用。品質は低いが使用可能で、低RAM環境に適している。
gemma-3-27b-it-abliterated-IQ4_XS.gguf	IQ4_XS	14.77GB	false	相当な品質で、Q4_K_Sより小さく、性能は同様。推奨。
gemma-3-27b-it-abliterated-Q3_K_L.gguf	Q3_K_L	14.54GB	false	品質は低いが使用可能で、低RAM環境に適している。
gemma-3-27b-it-abliterated-Q3_K_M.gguf	Q3_K_M	13.44GB	false	低品質。
gemma-3-27b-it-abliterated-IQ3_M.gguf	IQ3_M	12.55GB	false	中低品質で、Q3_K_Mに匹敵する相当な性能の新しい方法。
gemma-3-27b-it-abliterated-Q3_K_S.gguf	Q3_K_S	12.17GB	false	低品質で、推奨しません。
gemma-3-27b-it-abliterated-IQ3_XS.gguf	IQ3_XS	11.56GB	false	品質は低いが、相当な性能の新しい方法で、Q3_K_Sより少し良い。
gemma-3-27b-it-abliterated-Q2_K_L.gguf	Q2_K_L	10.85GB	false	埋め込みと出力の重みにQ8_0を使用。非常に低品質ですが、意外と使えます。
gemma-3-27b-it-abliterated-IQ3_XXS.gguf	IQ3_XXS	10.72GB	false	品質は低いが、相当な性能の新しい方法で、Q3量子化に匹敵。
gemma-3-27b-it-abliterated-Q2_K.gguf	Q2_K	10.50GB	false	非常に低品質ですが、意外と使えます。
gemma-3-27b-it-abliterated-IQ2_M.gguf	IQ2_M	9.49GB	false	比較的低品質ですが、最先端技術を使って、意外と使えるようになっています。
gemma-3-27b-it-abliterated-IQ2_S.gguf	IQ2_S	8.78GB	false	低品質ですが、最先端技術を使って使えるようになっています。
gemma-3-27b-it-abliterated-IQ2_XS.gguf	IQ2_XS	8.44GB	false	低品質ですが、最先端技術を使って使えるようになっています。

埋め込み/出力重み

これらの量子化のいくつか（Q3_K_XL、Q4_K_Lなど）は、標準的な量子化方法で、埋め込みと出力の重みが通常のデフォルトではなくQ8_0に量子化されています。

huggingface-cliを使用したダウンロード

ダウンロード手順を表示するにはクリック

まず、hugginface-cliがインストールされていることを確認してください:

pip install -U "huggingface_hub[cli]"

次に、ダウンロードしたい特定のファイルを指定できます:

huggingface-cli download bartowski/mlabonne_gemma-3-27b-it-abliterated-GGUF --include "mlabonne_gemma-3-27b-it-abliterated-Q4_K_M.gguf" --local-dir ./

モデルが50GBを超える場合は、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行します:

huggingface-cli download bartowski/mlabonne_gemma-3-27b-it-abliterated-GGUF --include "mlabonne_gemma-3-27b-it-abliterated-Q8_0/*" --local-dir ./

新しいローカルディレクトリ（mlabonne_gemma-3-27b-it-abliterated-Q8_0）を指定するか、すべてをそのまま（./）ダウンロードすることができます。

ARM/AVX情報

以前は、Q4_0_4_4/4_8/8_8をダウンロードし、ARMおよびAVXマシンでのパフォーマンスを向上させるために、一度により多くのデータをロードすることでメモリ内で重みをインターリーブしていました。

しかし、現在では、重みに「オンライン再パッキング」と呼ばれる機能があります。詳細はこのPR を参照してください。Q4_0を使用し、重みの再パッキングがハードウェアに有益な場合、自動的にオンザフライで行われます。

llama.cppビルド b4282 以降、Q4_0_X_Xファイルを実行することはできなくなり、代わりにQ4_0を使用する必要があります。

さらに、このPR のおかげで、少し質を向上させたい場合はIQ4_NLを使用できます。これはARM用に重みを再パッキングすることもできますが、現時点では4_4のみです。読み込み時間は長くなるかもしれませんが、全体的な速度が向上します。

Q4_0_X_X情報を表示するにはクリック（非推奨）

このセクションは、オンライン再パッキングを使用したQ4_0の潜在的な理論的なパフォーマンス向上を示すために残しています。

AVX2システム（EPYC7702）でのベンチマークを表示するにはクリック

モデル	サイズ	パラメータ	バックエンド	スレッド数	テスト	t/s	% (vs Q4_0)
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp512	204.03 ± 1.03	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp1024	282.92 ± 0.19	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp2048	259.49 ± 0.44	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg128	39.12 ± 0.27	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg256	39.31 ± 0.69	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg512	40.52 ± 0.03	100%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp512	301.02 ± 1.74	147%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp1024	287.23 ± 0.20	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp2048	262.77 ± 1.81	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg128	18.80 ± 0.99	48%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg256	24.46 ± 3.04	83%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg512	36.32 ± 3.59	90%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp512	271.71 ± 3.53	133%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp1024	279.86 ± 45.63	100%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp2048	320.77 ± 5.00	124%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg128	43.51 ± 0.05	111%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg256	43.35 ± 0.09	110%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg512	42.60 ± 0.31	105%

Q4_0_8_8は、プロンプト処理に大きな向上をもたらし、テキスト生成にはわずかな向上をもたらします。

どのファイルを選べばいいですか？

詳細はここをクリック

様々なパフォーマンスを示すグラフ付きの素晴らしい解説記事が、Artefact2によってここに提供されています。

まずは、実行できるモデルのサイズを把握する必要があります。これには、持っているRAMおよび/またはVRAMの容量を把握する必要があります。

できるだけ高速にモデルを実行したい場合は、モデル全体をGPUのVRAMに収めたいと思うでしょう。GPUの総VRAMよりも1-2GB小さいファイルサイズの量子化を選ぶようにしましょう。

絶対的に最大の品質が必要な場合は、システムRAMとGPUのVRAMを合計し、同様にその合計よりも1-2GB小さいファイルサイズの量子化を選びます。

次に、「I-量子化」または「K-量子化」を使用するかを決める必要があります。

あまり深く考えたくない場合は、K-量子化のいずれかを選んでください。これらは 'QX_K_X' 形式で、Q5_K_Mのようなものです。

もっと詳しく調べたい場合は、この非常に便利な機能チャートを確認できます:

llama.cpp機能マトリックス

基本的には、Q4以下を目指し、cuBLAS（Nvidia）またはrocBLAS（AMD）を使用している場合は、I-量子化を検討する必要があります。これらはIQX_X形式で、IQ3_Mのようなものです。これらは比較的新しく、サイズに対してより良いパフォーマンスを提供します。

これらのI-量子化はCPUでも使用できますが、同等のK-量子化よりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決める必要があります。

I-量子化はVulcan（同じくAMD）と互換性がありません。したがって、AMDカードを持っている場合は、rocBLASビルド还是Vulcanビルドを使用しているかを再度確認してください。この記事を書いている時点では、LM StudioにはROCmサポートのプレビュー版があり、他の推論エンジンにはROCm用の特定のビルドがあります。