モデル概要
モデル特徴
モデル能力
使用事例
🚀 Merlyn Education Safety 12B - GPTQ
このリポジトリは、Merlyn MindのMerlyn Education Safety 12BのGPTQモデルファイルを含んでいます。複数のGPTQパラメータの組み合わせが用意されており、以下の「提供されるファイル」で各オプション、そのパラメータ、および作成に使用されたソフトウェアの詳細を確認できます。これらのファイルは、Massed Computeにより提供されたハードウェアを使用して量子化されました。

TheBlokeのLLMに関する作業は、andreessen horowitz (a16z)からの助成金によって支援されています。
✨ 主な機能
- 複数のGPTQパラメータの組み合わせを提供し、ハードウェアと要件に合わせた最適なパラメータを選択できます。
- 複数の推論サーバー/ウェブUIと互換性があります。
📦 インストール
テキスト生成ウェブUIでのダウンロード
main
ブランチからダウンロードするには、「モデルをダウンロード」ボックスにTheBloke/merlyn-education-safety-GPTQ
を入力します。- 他のブランチからダウンロードするには、ダウンロード名の末尾に
:branchname
を追加します。例えば、TheBloke/merlyn-education-safety-GPTQ:gptq-4bit-32g-actorder_True
コマンドラインからのダウンロード
huggingface-hub
Pythonライブラリを使用することをおすすめします。
pip3 install huggingface-hub
main
ブランチをmerlyn-education-safety-GPTQ
というフォルダにダウンロードするには:
mkdir merlyn-education-safety-GPTQ
huggingface-cli download TheBloke/merlyn-education-safety-GPTQ --local-dir merlyn-education-safety-GPTQ --local-dir-use-symlinks False
別のブランチからダウンロードするには、--revision
パラメータを追加します。
mkdir merlyn-education-safety-GPTQ
huggingface-cli download TheBloke/merlyn-education-safety-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir merlyn-education-safety-GPTQ --local-dir-use-symlinks False
Pythonコードでのインストール
必要なパッケージをインストールします。
pip3 install --upgrade transformers optimum
# PyTorch 2.1 + CUDA 12.xを使用する場合:
pip3 install --upgrade auto-gptq
# または、PyTorch 2.1 + CUDA 11.xを使用する場合:
pip3 install --upgrade auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/
PyTorch 2.0を使用している場合、または事前構築されたホイールに問題がある場合は、ソースからAutoGPTQをインストールする必要があります。
pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.5.1
pip3 install .
💻 使用例
テキスト生成ウェブUIでの使用
- モデルタブをクリックします。
- カスタムモデルまたはLoRAをダウンロードの下に、
TheBloke/merlyn-education-safety-GPTQ
を入力します。- 特定のブランチからダウンロードするには、例えば
TheBloke/merlyn-education-safety-GPTQ:gptq-4bit-32g-actorder_True
と入力します。 - 各オプションのブランチのリストは、上記の「提供されるファイル」を参照してください。
- 特定のブランチからダウンロードするには、例えば
- ダウンロードをクリックします。
- モデルのダウンロードが開始され、完了すると「完了」と表示されます。
- 左上のモデルの横にある更新アイコンをクリックします。
- モデルのドロップダウンで、先ほどダウンロードしたモデル
merlyn-education-safety-GPTQ
を選択します。 - モデルは自動的にロードされ、使用可能な状態になります。
- カスタム設定が必要な場合は、設定してから右上のこのモデルの設定を保存をクリックし、続いてモデルを再読み込みをクリックします。
- 手動でGPTQパラメータを設定する必要はなく、
quantize_config.json
ファイルから自動的に設定されます。
- 手動でGPTQパラメータを設定する必要はなく、
- 準備ができたら、テキスト生成タブをクリックし、プロンプトを入力して使用を開始します。
Text Generation Inference (TGI)からのモデルの提供
TGIバージョン1.1.0以降の使用をおすすめします。公式のDockerコンテナはghcr.io/huggingface/text-generation-inference:1.1.0
です。
--model-id TheBloke/merlyn-education-safety-GPTQ --port 3000 --quantize gptq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096
TGIとやり取りするためのPythonコードの例(huggingface-hub 0.17.0以降が必要):
pip3 install huggingface-hub
from huggingface_hub import InferenceClient
endpoint_url = "https://your-endpoint-url-here"
prompt = "Tell me about AI"
prompt_template=f'''Instruction:\t{system_message}
Message:{prompt}
Response:
'''
client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
max_new_tokens=128,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1)
print(f"Model output: {response}")
Pythonコードでの推論
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
model_name_or_path = "TheBloke/merlyn-education-safety-GPTQ"
# 別のブランチを使用する場合は、revisionを変更します。
# 例えば: revision="gptq-4bit-32g-actorder_True"
📚 ドキュメント
提供されるファイルとGPTQパラメータ
複数の量子化パラメータが提供されており、ハードウェアと要件に最適なものを選択できます。各量子化は異なるブランチにあります。異なるブランチから取得する方法については、以下を参照してください。ほとんどのGPTQファイルはAutoGPTQで作成されています。Mistralモデルは現在、Transformersで作成されています。
GPTQパラメータの説明
- Bits: 量子化されたモデルのビットサイズ。
- GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。「None」は最小の値です。
- Act Order: TrueまたはFalse。
desc_act
とも呼ばれます。Trueの場合、量子化精度が向上します。一部のGPTQクライアントでは、Act Orderとグループサイズを使用するモデルに問題がありましたが、現在は一般的に解決されています。 - Damp %: 量子化のためにサンプルが処理される方法に影響を与えるGPTQパラメータ。デフォルトは0.01ですが、0.1の方がわずかに精度が向上します。
- GPTQ dataset: 量子化中に使用されるキャリブレーションデータセット。モデルのトレーニングに適したデータセットを使用すると、量子化精度が向上します。GPTQキャリブレーションデータセットは、モデルのトレーニングに使用されるデータセットとは異なります。トレーニングデータセットの詳細については、元のモデルリポジトリを参照してください。
- Sequence Length: 量子化に使用されるデータセットシーケンスの長さ。理想的には、モデルのシーケンス長と同じです。一部の非常に長いシーケンスモデル(16+K)では、より短いシーケンス長を使用する必要がある場合があります。ただし、短いシーケンス長は、量子化されたモデルのシーケンス長を制限するものではありません。長い推論シーケンスでの量子化精度にのみ影響します。
- ExLlama Compatibility: このファイルがExLlamaでロードできるかどうか。現在、ExLlamaは4ビットのLlamaとMistralモデルのみをサポートしています。
ブランチ | Bits | GS | Act Order | Damp % | GPTQデータセット | Seq Len | サイズ | ExLlama | 説明 |
---|---|---|---|---|---|---|---|---|---|
main | 4 | 128 | Yes | 0.1 | wikitext | 2048 | 6.93 GB | No | 4ビット、Act Orderとグループサイズ128g。64gよりもVRAMの使用量が少ないですが、精度はわずかに低くなります。 |
gptq-4bit-32g-actorder_True | 4 | 32 | Yes | 0.1 | wikitext | 2048 | 7.60 GB | No | 4ビット、Act Orderとグループサイズ32g。可能な限り高い推論品質を提供しますが、最大のVRAM使用量が必要です。 |
gptq-8bit--1g-actorder_True | 8 | None | Yes | 0.1 | wikitext | 2048 | 12.38 GB | No | 8ビット、Act Order。グループサイズがないため、VRAMの要件が低くなります。 |
gptq-8bit-128g-actorder_True | 8 | 128 | Yes | 0.1 | wikitext | 2048 | 12.64 GB | No | 8ビット、グループサイズ128gで推論品質が向上し、Act Orderでさらに精度が向上します。 |
gptq-8bit-32g-actorder_True | 8 | 32 | Yes | 0.1 | wikitext | 2048 | 13.43 GB | No | 8ビット、グループサイズ32gとAct Orderで最大の推論品質を実現します。 |
gptq-4bit-64g-actorder_True | 4 | 64 | Yes | 0.1 | wikitext | 2048 | 7.15 GB | No | 4ビット、Act Orderとグループサイズ64g。32gよりもVRAMの使用量が少ないですが、精度はわずかに低くなります。 |
プロンプトテンプレート: Merlyn-Education-Safety
Instruction:\t{system_message}
Message:{prompt}
Response:
互換性のあるクライアント/サーバー
これらのGPTQモデルは、以下の推論サーバー/ウェブUIで動作することが確認されています。
これは完全なリストではない可能性があります。他のものを知っている場合は、教えてください!
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。



