Gemma-2-2b-it-abliteratedオープンソース言語モデル - 無料デプロイでテキスト生成タスクをサポート

ホーム

Gemma 2 2b It Abliterated GGUF

bartowskiによって開発

Gemma-2-2b-it-abliteratedはGoogle Gemmaアーキテクチャに基づく2.2Bパラメータの言語モデルで、量子化処理が施されており、テキスト生成タスクに適しています。

大規模言語モデル英語#軽量テキスト生成 #複数量化バージョン選択 #英語対話最適化

ダウンロード数 10.55k

リリース時間 : 8/1/2024

モデル概要

これは量子化されたテキスト生成モデルで、GoogleのGemmaアーキテクチャに基づいており、英語テキスト生成タスクに適しています。

モデル特徴

多様な量子化バージョン

F32からQ2_K_Lまでの多様な量子化バージョンを提供し、さまざまなハードウェア要件に対応します。

高品質な量子化

imatrixオプションを使用して量子化し、特定のデータセットでキャリブレーションを行うことで、量子化品質を保証します。

埋め込み/出力重み最適化

一部の量子化バージョンでは埋め込みと出力重みがQ8_0で量子化されており、生成品質の向上が期待できます。

モデル能力

英語テキスト生成

対話生成

コンテンツ作成

使用事例

テキスト生成

対話システム

英語の対話システム構築に使用され、自然で流暢な応答を生成します。

コンテンツ作成

英語の記事やストーリーなどのコンテンツ生成を支援します。

🚀 gemma-2-2b-it-abliteratedのLlamacpp imatrix量子化

このプロジェクトでは、テキスト生成に特化したgemma-2-2b-it-abliteratedモデルの量子化バージョンを提供しています。量子化にはllama.cppを使用し、さまざまな量子化オプションを用意しています。

🚀 クイックスタート

量子化の詳細

量子化には llama.cpp のリリース b3496 を使用しています。
オリジナルモデルは https://huggingface.co/IlyaGusev/gemma-2-2b-it-abliterated です。
すべての量子化は、こちらのデータセットを使用して imatrix オプションで行われています。
これらの量子化モデルは LM Studio で実行できます。

プロンプトフォーマット

<bos><start_of_turn>user
{prompt}<end_of_turn>
<start_of_turn>model
<end_of_turn>
<start_of_turn>model

このモデルはシステムプロンプトをサポートしていません。

✨ 主な機能

量子化モデルのダウンロード

以下の表から、必要なファイルを選択してダウンロードできます。

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
gemma-2-2b-it-abliterated-f32.gguf	f32	10.46GB	false	完全なF32重み。
gemma-2-2b-it-abliterated-Q8_0.gguf	Q8_0	2.78GB	false	非常に高品質で、一般的には必要ないが、利用可能な最大の量子化。
gemma-2-2b-it-abliterated-Q6_K_L.gguf	Q6_K_L	2.29GB	false	埋め込みと出力重みにQ8_0を使用。非常に高品質で、ほぼ完璧、推奨。
gemma-2-2b-it-abliterated-Q6_K.gguf	Q6_K	2.15GB	false	非常に高品質で、ほぼ完璧、推奨。
gemma-2-2b-it-abliterated-Q5_K_L.gguf	Q5_K_L	2.07GB	false	埋め込みと出力重みにQ8_0を使用。高品質、推奨。
gemma-2-2b-it-abliterated-Q5_K_M.gguf	Q5_K_M	1.92GB	false	高品質、推奨。
gemma-2-2b-it-abliterated-Q5_K_S.gguf	Q5_K_S	1.88GB	false	高品質、推奨。
gemma-2-2b-it-abliterated-Q4_K_L.gguf	Q4_K_L	1.85GB	false	埋め込みと出力重みにQ8_0を使用。良好な品質、推奨。
gemma-2-2b-it-abliterated-Q4_K_M.gguf	Q4_K_M	1.71GB	false	良好な品質、ほとんどのケースでのデフォルトサイズ、推奨。
gemma-2-2b-it-abliterated-Q3_K_XL.gguf	Q3_K_XL	1.69GB	false	埋め込みと出力重みにQ8_0を使用。品質は低いが使用可能で、低RAM環境に適している。
gemma-2-2b-it-abliterated-Q4_K_S.gguf	Q4_K_S	1.64GB	false	品質がやや低いが、より多くのスペースを節約できる、推奨。
gemma-2-2b-it-abliterated-IQ4_XS.gguf	IQ4_XS	1.57GB	false	適度な品質で、Q4_K_Sよりも小さく、類似したパフォーマンスを持つ、推奨。
gemma-2-2b-it-abliterated-Q3_K_L.gguf	Q3_K_L	1.55GB	false	品質は低いが使用可能で、低RAM環境に適している。
gemma-2-2b-it-abliterated-IQ3_M.gguf	IQ3_M	1.39GB	false	中低品質、Q3_K_Mに匹敵する適度なパフォーマンスを持つ新しい方法。
gemma-2-2b-it-abliterated-Q2_K_L.gguf	Q2_K_L	1.37GB	false	埋め込みと出力重みにQ8_0を使用。非常に低品質だが、意外と使用可能。

埋め込み/出力重み

一部の量子化（Q3_K_XL、Q4_K_Lなど）は、標準的な量子化方法で、埋め込みと出力重みが通常のデフォルト値ではなくQ8_0に量子化されています。一部の人はこれにより品質が向上すると言い、他の人は違いを感じません。これらのモデルを使用した場合は、あなたの調査結果をコメントしてください。誰も使用していない量子化をアップロードし続けないように、実際に使用されていて有用であるというフィードバックが欲しいです。

📦 インストール

huggingface-cliを使用したダウンロード

まず、huggingface-cliがインストールされていることを確認してください。

pip install -U "huggingface_hub[cli]"

次に、特定のファイルをターゲットにすることができます。

huggingface-cli download bartowski/gemma-2-2b-it-abliterated-GGUF --include "gemma-2-2b-it-abliterated-Q4_K_M.gguf" --local-dir ./

モデルが50GBを超える場合は、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行します。

huggingface-cli download bartowski/gemma-2-2b-it-abliterated-GGUF --include "gemma-2-2b-it-abliterated-Q8_0/*" --local-dir ./

新しいローカルディレクトリ（gemma-2-2b-it-abliterated-Q8_0）を指定するか、すべてをその場所にダウンロード（./）することができます。

📚 ドキュメント

どのファイルを選べばいいですか？

Artefact2による、さまざまなパフォーマンスを示すチャート付きの素晴らしい解説記事がこちらにあります。まず、実行できるモデルのサイズを把握する必要があります。これには、あなたが持っているRAMと/またはVRAMの量を把握する必要があります。モデルをできるだけ高速に実行したい場合は、モデル全体をGPUのVRAMに収めたいと思うでしょう。GPUの総VRAMよりも1 - 2GB小さいファイルサイズの量子化を選択しましょう。絶対的な最高品質を求める場合は、システムRAMとGPUのVRAMを合計し、同様にその合計よりも1 - 2GB小さいファイルサイズの量子化を選択します。次に、「I-量子化」または「K-量子化」を使用するかを決定する必要があります。あまり考えたくない場合は、K-量子化のいずれかを選択しましょう。これらは「QX_K_X」の形式で、Q5_K_Mのようになります。もっと詳細に調べたい場合は、この非常に便利な機能チャートをチェックすることができます。 llama.cpp feature matrix 基本的に、Q4以下を目指していて、cuBLAS（Nvidia）またはrocBLAS（AMD）を使用している場合は、I-量子化を検討する必要があります。これらはIQX_Xの形式で、IQ3_Mのようになります。これらは新しく、サイズに対してより良いパフォーマンスを提供します。これらのI-量子化はCPUとApple Metalでも使用できますが、K-量子化と比べると遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。 I-量子化はVulcan（AMD）と互換性がないため、AMDカードを使用している場合は、rocBLASビルドまたはVulcanビルドを使用しているかを再度確認してください。この記事を書いている時点では、LM StudioにはROCmサポートのプレビュー版があり、他の推論エンジンにはROCm用の特定のビルドがあります。