Huihui-gemma-3n-E4B-it-abliteratedオープンソーステキスト生成モデル - 複数量化バージョンで異なるハードウェアに対応

ホーム

Huihui Ai Huihui Gemma 3n E4B It Abliterated GGUF

bartowskiによって開発

Huihui-gemma-3n-E4B-it-abliteratedはhuihui-aiチームによって開発されたGemmaアーキテクチャに基づくテキスト生成モデルで、さまざまな量子化バージョンを提供して異なるハードウェア要件に対応します。

大規模言語モデル #マルチモーダルテキスト生成 #低メモリ最適化 #高精度量子化

ダウンロード数 1,181

リリース時間 : 7/10/2025

モデル概要

このモデルはGemmaアーキテクチャに基づくテキスト生成モデルで、複数の量子化バージョンをサポートし、異なるハードウェア条件下でのテキスト生成タスクに適しています。

モデル特徴

複数の量子化バージョン

Q2_KからQ8_0までの複数の量子化バージョンを提供し、異なるハードウェア条件とパフォーマンス要件に適応します。

高品質の量子化

imatrixオプションを使用して量子化を行い、埋め込みと出力の重みをQ8_0に量子化して高品質を維持します。

広範な互換性

LM Studio、llama.cppおよびllama.cppに基づくプロジェクトでの実行をサポートします。

モデル能力

テキスト生成

自動音声認識

自動音声翻訳

音声テキスト変換

ビデオテキスト変換

使用事例

テキスト生成

チャットボット

高品質のチャットボットの構築に使用でき、マルチラウンド対話をサポートします。

コンテンツ作成

記事、物語などの創造的なコンテンツの生成を支援します。

音声処理

音声テキスト変換

音声コンテンツをテキスト形式に変換します。

音声翻訳

音声コンテンツのリアルタイム翻訳をサポートします。

🚀 huihui-aiによるHuihui-gemma-3n-E4B-it-abliteratedのLlamacpp imatrix量子化

このプロジェクトは、llama.cpp のリリース b5856 を使用して、huihui-aiによるHuihui-gemma-3n-E4B-it-abliteratedモデルの量子化を行います。これにより、モデルのサイズを削減し、実行速度を向上させることができます。

🚀 クイックスタート

基本情報

量子化担当者: bartowski
パイプラインタグ: テキスト生成
追加ゲート付きプロンプト: Hugging FaceでGemmaにアクセスするには、Googleの使用許諾契約を確認して同意する必要があります。これを行うには、Hugging Faceにログインして、以下のボタンをクリックしてください。リクエストは即座に処理されます。
タグ: 自動音声認識、自動音声翻訳、音声テキスト変換、ビデオテキスト変換、消去、無修正
ベースモデル: huihui-ai/Huihui-gemma-3n-E4B-it-abliterated
ベースモデルの関係: 量子化
ライセンス: gemma

量子化方法

量子化には llama.cpp のリリース b5856 を使用しています。
すべての量子化は、ここのデータセットを使用して、imatrixオプションで行われています。

実行方法

LM Studio: LM Studio で実行できます。
llama.cpp: llama.cpp または他のllama.cppベースのプロジェクトで直接実行できます。

✨ 主な機能

多様な量子化形式: さまざまな量子化形式（BF16、Q8_0、Q6_K_Lなど）が用意されており、ユーザーのハードウェア環境や性能要件に合わせて選択できます。
高速な実行: 量子化により、モデルのサイズが削減され、実行速度が向上します。
柔軟な実行環境: LM Studioやllama.cppなどの複数の環境で実行できます。

📦 インストール

huggingface-cliを使用したダウンロード

まず、hugginface-cliをインストールします。

pip install -U "huggingface_hub[cli]"

特定のファイルをダウンロードするには、以下のコマンドを実行します。

huggingface-cli download bartowski/huihui-ai_Huihui-gemma-3n-E4B-it-abliterated-GGUF --include "huihui-ai_Huihui-gemma-3n-E4B-it-abliterated-Q4_K_M.gguf" --local-dir ./

モデルが50GBを超える場合、複数のファイルに分割されています。すべてのファイルをローカルフォルダにダウンロードするには、以下のコマンドを実行します。

huggingface-cli download bartowski/huihui-ai_Huihui-gemma-3n-E4B-it-abliterated-GGUF --include "huihui-ai_Huihui-gemma-3n-E4B-it-abliterated-Q8_0/*" --local-dir ./

💻 使用例

プロンプトフォーマット

チャットテンプレートが指定されていないため、デフォルトのものが使用されます。これは正しくない場合があるので、元のモデルカードを確認してください。

<bos><start_of_turn>user
{system_prompt}

{prompt}<end_of_turn>
<start_of_turn>model
<end_of_turn>
<start_of_turn>model

ファイルのダウンロード

以下からファイル（ブランチ全体ではない）をダウンロードできます。

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
Huihui-gemma-3n-E4B-it-abliterated-bf16.gguf	bf16	13.74GB	false	完全なBF16重み。
Huihui-gemma-3n-E4B-it-abliterated-Q8_0.gguf	Q8_0	7.35GB	false	非常に高品質で、一般的には必要ありませんが、利用可能な最大の量子化。
Huihui-gemma-3n-E4B-it-abliterated-Q6_K_L.gguf	Q6_K_L	6.40GB	false	埋め込みと出力重みにQ8_0を使用。非常に高品質で、ほぼ完璧で、推奨。
Huihui-gemma-3n-E4B-it-abliterated-Q5_K_L.gguf	Q5_K_L	5.96GB	false	埋め込みと出力重みにQ8_0を使用。高品質で、推奨。
Huihui-gemma-3n-E4B-it-abliterated-Q6_K.gguf	Q6_K	5.70GB	false	非常に高品質で、ほぼ完璧で、推奨。
Huihui-gemma-3n-E4B-it-abliterated-Q4_K_L.gguf	Q4_K_L	5.54GB	false	埋め込みと出力重みにQ8_0を使用。良好な品質で、推奨。
Huihui-gemma-3n-E4B-it-abliterated-Q3_K_XL.gguf	Q3_K_XL	5.22GB	false	埋め込みと出力重みにQ8_0を使用。品質は低いが使用可能で、低RAM環境に適しています。
Huihui-gemma-3n-E4B-it-abliterated-Q5_K_M.gguf	Q5_K_M	4.95GB	false	高品質で、推奨。
Huihui-gemma-3n-E4B-it-abliterated-Q5_K_S.gguf	Q5_K_S	4.87GB	false	高品質で、推奨。
Huihui-gemma-3n-E4B-it-abliterated-Q2_K_L.gguf	Q2_K_L	4.61GB	false	埋め込みと出力重みにQ8_0を使用。非常に低品質ですが、意外と使用可能です。
Huihui-gemma-3n-E4B-it-abliterated-Q4_1.gguf	Q4_1	4.48GB	false	レガシーフォーマットで、Q4_K_Sと同様のパフォーマンスですが、Appleシリコンでのトークン/ワットが向上しています。
Huihui-gemma-3n-E4B-it-abliterated-Q4_K_M.gguf	Q4_K_M	4.24GB	false	良好な品質で、ほとんどのユースケースでのデフォルトサイズで、推奨。
Huihui-gemma-3n-E4B-it-abliterated-Q4_K_S.gguf	Q4_K_S	4.10GB	false	品質が少し低いですが、より多くのスペースを節約でき、推奨。
Huihui-gemma-3n-E4B-it-abliterated-Q4_0.gguf	Q4_0	4.09GB	false	レガシーフォーマットで、ARMおよびAVX CPU推論用のオンライン再パッキングを提供します。
Huihui-gemma-3n-E4B-it-abliterated-IQ4_NL.gguf	IQ4_NL	4.09GB	false	IQ4_XSに似ていますが、少し大きいです。ARM CPU推論用のオンライン再パッキングを提供します。
Huihui-gemma-3n-E4B-it-abliterated-IQ4_XS.gguf	IQ4_XS	3.90GB	false	適度な品質で、Q4_K_Sよりも小さく、同様のパフォーマンスを持ち、推奨。
Huihui-gemma-3n-E4B-it-abliterated-Q3_K_L.gguf	Q3_K_L	3.60GB	false	品質は低いが使用可能で、低RAM環境に適しています。
Huihui-gemma-3n-E4B-it-abliterated-Q3_K_M.gguf	Q3_K_M	3.44GB	false	低品質。
Huihui-gemma-3n-E4B-it-abliterated-IQ3_M.gguf	IQ3_M	3.29GB	false	中程度の低品質で、Q3_K_Mに匹敵するパフォーマンスを持つ新しい方法。
Huihui-gemma-3n-E4B-it-abliterated-Q3_K_S.gguf	Q3_K_S	3.25GB	false	低品質で、推奨されません。
Huihui-gemma-3n-E4B-it-abliterated-IQ3_XS.gguf	IQ3_XS	3.17GB	false	品質が低いですが、パフォーマンスが適度で、Q3_K_Sよりも少し良いです。
Huihui-gemma-3n-E4B-it-abliterated-Q2_K.gguf	Q2_K	2.76GB	false	非常に低品質ですが、意外と使用可能です。

📚 ドキュメント

埋め込み/出力重み

一部の量子化（Q3_K_XL、Q4_K_Lなど）は、標準の量子化方法で、埋め込みと出力重みが通常のデフォルトではなくQ8_0に量子化されています。

ARM/AVX情報

以前は、Q4_0_4_4/4_8/8_8をダウンロードし、これらの重みはメモリ内でインターリーブされていました。これにより、ARMおよびAVXマシンで一度により多くのデータをロードしてパフォーマンスを向上させることができます。

現在では、重みの「オンライン再パッキング」と呼ばれる機能があります。詳細はこのPR を参照してください。Q4_0を使用し、ハードウェアが重みの再パッキングによって恩恵を受ける場合、自動的に実行されます。

llama.cppビルド b4282 以降、Q4_0_X_Xファイルを実行することはできず、代わりにQ4_0を使用する必要があります。

また、少し良い品質を得たい場合は、このPR により、ARM用に重みを再パッキングするIQ4_NLを使用できます。ただし、現在は4_4のみです。読み込み時間が長くなる可能性がありますが、全体的な速度が向上します。

どのファイルを選べばいいですか？

まず、実行できるモデルのサイズを決定する必要があります。これには、利用可能なRAMとVRAMの量を考慮する必要があります。

最高の速度が必要な場合: モデル全体をGPUのVRAMに収めることができるように、ファイルサイズがGPUの総VRAMより1 - 2GB小さい量子化形式を選択します。
最高の品質が必要な場合: システムRAMとGPUのVRAMを合計し、その合計より1 - 2GB小さいファイルサイズの量子化形式を選択します。

次に、「I-quant」または「K-quant」を使用するかを決定する必要があります。

考えるのが面倒な場合: K-quantのいずれかを選択します。これらは「QX_K_X」形式で、例えばQ5_K_Mです。
詳細を知りたい場合: llama.cpp機能マトリックスを参照してください。基本的に、Q4以下を目指し、cuBLAS（Nvidia）またはrocBLAS（AMD）を使用している場合は、I-quantを検討する必要があります。これらはIQX_X形式で、例えばIQ3_Mです。これらは新しく、サイズに対して良好なパフォーマンスを提供します。

これらのI-quantはCPUでも使用できますが、同等のK-quantよりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。