gemma-2-9b-it-abliterated-GGUFオープンソースモデル - 最適化後はLM Studioで簡単に実行できます

ホーム

Gemma 2 9b It Abliterated GGUF

bartowskiによって開発

Gemma 2.9Bの量子化バージョンで、llama.cppを使用して最適化されており、LM Studioでの実行に適しています。

大規模言語モデル英語#量子化最適化 #低リソース展開 #英文生成

ダウンロード数 3,941

リリース時間 : 4/25/2025

モデル概要

これは量子化されたGemma 2.9Bモデルのバージョンで、llama.cppツールを使用して最適化されており、さまざまなハードウェア要件に対応するための複数の量子化オプションを提供します。

モデル特徴

多様な量子化オプション

F32からQ2_Kまでのさまざまな量子化バージョンを提供し、異なるハードウェアと性能要件に対応します。

埋め込みと出力重みの最適化

一部の量子化バージョンでは、Q8_0を使用して埋め込みと出力重みを最適化し、モデルの品質を向上させる可能性があります。

ARM最適化

ARMアーキテクチャに特化して最適化された量子化バージョンを提供し、さまざまなARMチップの特性をサポートします。

モデル能力

テキスト生成

対話システム

使用事例

対話システム

インテリジェントアシスタント

インテリジェントな対話アシスタントの構築に使用でき、マルチターン対話をサポートします。

コンテンツ生成

テキスト作成

ストーリーや記事など、さまざまなタイプのテキストコンテンツを生成するために使用できます。

base_model: IlyaGusev/gemma-2-9b-it-abliterated language:

en license: gemma pipeline_tag: text-generation quantized_by: bartowski

gemma-2-9b-it-abliteratedのLlamacpp imatrix量子化

量子化にはllama.cppのリリースb3878を使用しています。

オリジナルモデル: https://huggingface.co/IlyaGusev/gemma-2-9b-it-abliterated

すべての量子化はimatrixオプションを使用し、こちらのデータセットで実施されました。

LM Studioで実行可能です。

プロンプト形式

<bos><start_of_turn>system
{system_prompt}<end_of_turn>
<start_of_turn>user
{prompt}<end_of_turn>
<start_of_turn>model
<end_of_turn>
<start_of_turn>model

以下のファイルをダウンロード（ブランチ全体ではなく）:

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
gemma-2-9b-it-abliterated-f32.gguf	f32	36.97GB	false	完全なF32ウェイト。
gemma-2-9b-it-abliterated-f32.gguf	f32	36.97GB	false	完全なF32ウェイト。
gemma-2-9b-it-abliterated-Q8_0.gguf	Q8_0	9.83GB	false	非常に高品質、一般的には不要だが利用可能な最大量子化。
gemma-2-9b-it-abliterated-Q6_K_L.gguf	Q6_K_L	7.81GB	false	埋め込みと出力ウェイトにQ8_0を使用。非常に高品質、ほぼ完璧、推奨。
gemma-2-9b-it-abliterated-Q6_K.gguf	Q6_K	7.59GB	false	非常に高品質、ほぼ完璧、推奨。
gemma-2-9b-it-abliterated-Q5_K_L.gguf	Q5_K_L	6.87GB	false	埋め込みと出力ウェイトにQ8_0を使用。高品質、推奨。
gemma-2-9b-it-abliterated-Q5_K_M.gguf	Q5_K_M	6.65GB	false	高品質、推奨。
gemma-2-9b-it-abliterated-Q5_K_S.gguf	Q5_K_S	6.48GB	false	高品質、推奨。
gemma-2-9b-it-abliterated-Q4_K_L.gguf	Q4_K_L	5.98GB	false	埋め込みと出力ウェイトにQ8_0を使用。良好な品質、推奨。
gemma-2-9b-it-abliterated-Q4_K_M.gguf	Q4_K_M	5.76GB	false	良好な品質、多くの使用ケースでのデフォルトサイズ、推奨。
gemma-2-9b-it-abliterated-Q4_K_S.gguf	Q4_K_S	5.48GB	false	品質はやや低いがスペース節約効果大、推奨。
gemma-2-9b-it-abliterated-Q4_0.gguf	Q4_0	5.46GB	false	レガシーフォーマット、ARMおよびAVX推論用のオンライン再パッキングを提供。
gemma-2-9b-it-abliterated-Q4_0_8_8.gguf	Q4_0_8_8	5.44GB	false	ARM推論用に最適化。'sve'サポートが必要（下記リンク参照）。
gemma-2-9b-it-abliterated-Q4_0_4_8.gguf	Q4_0_4_8	5.44GB	false	ARM推論用に最適化。'i8mm'サポートが必要（下記リンク参照）。
gemma-2-9b-it-abliterated-Q4_0_4_4.gguf	Q4_0_4_4	5.44GB	false	ARM推論用に最適化。すべてのARMチップで良好に動作、迷ったらこれを選択。
gemma-2-9b-it-abliterated-Q3_K_XL.gguf	Q3_K_XL	5.35GB	false	埋め込みと出力ウェイトにQ8_0を使用。品質は低いが使用可能、RAMが少ない場合に適しています。
gemma-2-9b-it-abliterated-IQ4_XS.gguf	IQ4_XS	5.18GB	false	良好な品質、Q4_K_Sより小さく同様の性能、推奨。
gemma-2-9b-it-abliterated-Q3_K_L.gguf	Q3_K_L	5.13GB	false	品質は低いが使用可能、RAMが少ない場合に適しています。
gemma-2-9b-it-abliterated-Q3_K_M.gguf	Q3_K_M	4.76GB	false	低品質。
gemma-2-9b-it-abliterated-IQ3_M.gguf	IQ3_M	4.49GB	false	中低品質、Q3_K_Mと比較可能な性能を持つ新しい手法。
gemma-2-9b-it-abliterated-Q3_K_S.gguf	Q3_K_S	4.34GB	false	低品質、非推奨。
gemma-2-9b-it-abliterated-IQ3_XS.gguf	IQ3_XS	4.14GB	false	低品質、新しい手法でQ3_K_Sよりやや良好な性能。
gemma-2-9b-it-abliterated-Q2_K_L.gguf	Q2_K_L	4.03GB	false	埋め込みと出力ウェイトにQ8_0を使用。非常に低品質だが驚くほど使用可能。
gemma-2-9b-it-abliterated-Q2_K.gguf	Q2_K	3.81GB	false	非常に低品質だが驚くほど使用可能。
gemma-2-9b-it-abliterated-IQ2_M.gguf	IQ2_M	3.43GB	false	比較的低品質だが、SOTA技術を使用して驚くほど使用可能。

埋め込み/出力ウェイト

これらの量子化の一部（Q3_K_XL、Q4_K_Lなど）は、埋め込みと出力ウェイトを通常のデフォルトではなくQ8_0で量子化した標準的な量子化手法です。

これにより品質が向上すると言う人もいれば、違いに気づかない人もいます。これらのモデルを使用する場合は、ぜひコメントで発見を共有してください。誰も使用していない量子化をアップロードし続けないよう、フィードバックが欲しいです。

ありがとうございます！

huggingface-cliを使用したダウンロード

まず、huggingface-cliがインストールされていることを確認してください:

pip install -U "huggingface_hub[cli]"

その後、特定のファイルを指定してダウンロードできます:

huggingface-cli download bartowski/gemma-2-9b-it-abliterated-GGUF --include "gemma-2-9b-it-abliterated-Q4_K_M.gguf" --local-dir ./

モデルが50GBを超える場合、複数のファイルに分割されています。それらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行します:

huggingface-cli download bartowski/gemma-2-9b-it-abliterated-GGUF --include "gemma-2-9b-it-abliterated-Q8_0/*" --local-dir ./

新しいlocal-dir（gemma-2-9b-it-abliterated-Q8_0）を指定するか、すべてをその場（./）にダウンロードできます。

Q4_0_X_X

これらはMetal（Apple）オフローディング用ではなく、ARMチップ専用です。

ARMチップを使用している場合、Q4_0_X_X量子化は大幅な高速化をもたらします。オリジナルのプルリクエストでQ4_0_4_4の速度比較を確認してください。

どのARMチップに最適かを確認するには、AArch64 SoC featuresをチェックしてください（EloyOnさんに感謝！）。

どのファイルを選ぶべきか？

Artefact2によるこちらのチャート付きの素晴らしい解説があります。

まず、実行可能なモデルのサイズを把握する必要があります。そのためには、RAMやVRAMの量を確認する必要があります。

モデルを可能な限り高速に実行したい場合は、モデル全体をGPUのVRAMに収める必要があります。GPUの総VRAMより1-2GB小さい量子化を選択してください。

絶対的な最高品質を求めたい場合は、システムRAMとGPUのVRAMを合計し、同様に合計より1-2GB小さい量子化を選択してください。

次に、「I-quant」または「K-quant」を使用するかどうかを決定する必要があります。

あまり考えたくない場合は、K-quantのいずれかを選択してください。これらは「QX_K_X」形式で、例えばQ5_K_Mなどです。

さらに詳しく知りたい場合は、この非常に便利な機能チャートを確認してください:

llama.cpp feature matrix

基本的に、Q4以下を目指していて、cuBLAS（Nvidia）またはrocBLAS（AMD）を実行している場合は、I-quantを検討してください。これらは「IQX_X」形式で、例えばIQ3_Mなどです。これらは新しく、サイズに対してより良い性能を提供します。

これらのI-quantはCPUおよびApple Metalでも使用できますが、K-quant相当よりも遅くなるため、速度と性能のトレードオフを考慮する必要があります。

I-quantはVulcan（これもAMD）とは互換性がありません。AMDカードを使用している場合は、rocBLASビルドまたはVulcanビルドを使用しているかどうかを確認してください。この記事の執筆時点では、LM StudioにはROCmサポートのプレビューがあり、他の推論エンジンにはROCm用の特定のビルドがあります。