モデル概要
モデル特徴
モデル能力
使用事例
🚀 Geitje 7B Chat - GPTQ
このモデルは、Edwin Rijgersberg氏によって開発されたGeitje 7B ChatのGPTQ形式のモデルファイルを含んでいます。複数のGPTQパラメータの組み合わせが提供されており、ハードウェアと要件に合わせて最適なものを選ぶことができます。
🚀 クイックスタート
モデルの基本情報
属性 | 详情 |
---|---|
モデルタイプ | Mistral |
訓練データ | Rijgersberg/no_robots_nl、Rijgersberg/ultrachat_10k_nl |
モデル作成者 | Edwin Rijgersberg |
モデル名 | Geitje 7B Chat |
パイプラインタグ | 会話型 |
プロンプトテンプレート | `< |
量子化者 | TheBloke |
ライセンス | Apache-2.0 |
関連リポジトリ
- GPU推論用のAWQモデル
- 複数の量子化パラメータオプションを持つGPU推論用のGPTQモデル
- CPU+GPU推論用の2、3、4、5、6、8ビットのGGUFモデル
- GPU推論とさらなる変換用のEdwin Rijgersberg氏の元の非量子化fp16モデル(PyTorch形式)
プロンプトテンプレート: ToRA
<|user|>
{prompt}
<|assistant|>
互換性のあるクライアント/サーバー
GPTQモデルは現在、Linux(NVidia/AMD)とWindows(NVidiaのみ)でサポートされています。macOSユーザーはGGUFモデルを使用してください。
これらのGPTQモデルは以下の推論サーバー/ウェブUIで動作することが知られています。
これは完全なリストではない可能性があります。他にも互換性のあるものを知っている場合は、教えてください!
提供されるファイルとGPTQパラメータ
複数の量子化パラメータが提供されており、ハードウェアと要件に合わせて最適なものを選ぶことができます。
各量子化パラメータの組み合わせは異なるブランチにあります。異なるブランチからファイルを取得する方法については、以下を参照してください。
ほとんどのGPTQファイルはAutoGPTQで作成されています。Mistralモデルは現在、Transformersで作成されています。
GPTQパラメータの説明
- ビット数: 量子化されたモデルのビットサイズ。
- GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。"None"は最小値です。
- Act Order: TrueまたはFalse。
desc_act
とも呼ばれます。Trueの場合、量子化精度が向上します。一部のGPTQクライアントでは、Act Orderとグループサイズを組み合わせたモデルに問題があったことがありますが、現在はほとんど解決されています。 - Damp %: 量子化のためにサンプルが処理される方法に影響を与えるGPTQパラメータ。デフォルトは0.01ですが、0.1の方がわずかに精度が向上します。
- GPTQデータセット: 量子化中に使用されるキャリブレーションデータセット。モデルの訓練に適したデータセットを使用すると、量子化精度が向上する場合があります。なお、GPTQキャリブレーションデータセットはモデルの訓練に使用されるデータセットとは異なります。訓練データセットの詳細については、元のモデルリポジトリを参照してください。
- シーケンス長: 量子化に使用されるデータセットシーケンスの長さ。理想的には、モデルのシーケンス長と同じです。一部の非常に長いシーケンスモデル(16K以上)では、より短いシーケンス長を使用する必要がある場合があります。ただし、短いシーケンス長は量子化されたモデルのシーケンス長を制限するものではありません。長い推論シーケンスでの量子化精度にのみ影響します。
- ExLlama互換性: このファイルがExLlamaでロードできるかどうか。現在、ExLlamaは4ビットのLlamaとMistralモデルのみをサポートしています。
ブランチ | ビット数 | GS | Act Order | Damp % | GPTQデータセット | シーケンス長 | サイズ | ExLlama互換性 | 説明 |
---|---|---|---|---|---|---|---|---|---|
main | 4 | 128 | Yes | 0.1 | Dolly 15K Dutch | 4096 | 4.16 GB | Yes | 4ビット、Act Order付き、グループサイズ128g。64gよりもVRAMの使用量が少なくなりますが、精度はわずかに低下します。 |
gptq-4bit-32g-actorder_True | 4 | 32 | Yes | 0.1 | Dolly 15K Dutch | 4096 | 4.57 GB | Yes | 4ビット、Act Order付き、グループサイズ32g。最大の推論品質を提供しますが、VRAMの使用量が最大になります。 |
gptq-8bit--1g-actorder_True | 8 | None | Yes | 0.1 | Dolly 15K Dutch | 4096 | 7.52 GB | No | 8ビット、Act Order付き。グループサイズなしで、VRAMの使用量を抑えます。 |
gptq-8bit-128g-actorder_True | 8 | 128 | Yes | 0.1 | Dolly 15K Dutch | 4096 | 7.68 GB | No | 8ビット、グループサイズ128gで推論品質を向上させ、Act Orderでさらに精度を高めます。 |
gptq-8bit-32g-actorder_True | 8 | 32 | Yes | 0.1 | Dolly 15K Dutch | 4096 | 8.17 GB | No | 8ビット、グループサイズ32gとAct Orderで最大の推論品質を提供します。 |
gptq-4bit-64g-actorder_True | 4 | 64 | Yes | 0.1 | Dolly 15K Dutch | 4096 | 4.29 GB | Yes | 4ビット、Act Order付き、グループサイズ64g。32gよりもVRAMの使用量が少なくなりますが、精度はわずかに低下します。 |
ダウンロード方法(ブランチからのダウンロードを含む)
text-generation-webuiでのダウンロード
main
ブランチからダウンロードするには、"Download model"ボックスにTheBloke/GEITje-7B-chat-GPTQ
を入力します。
他のブランチからダウンロードするには、ダウンロード名の末尾に:branchname
を追加します。例えば、TheBloke/GEITje-7B-chat-GPTQ:gptq-4bit-32g-actorder_True
コマンドラインからのダウンロード
huggingface-hub
Pythonライブラリを使用することをおすすめします。
pip3 install huggingface-hub
main
ブランチをGEITje-7B-chat-GPTQ
というフォルダにダウンロードするには:
mkdir GEITje-7B-chat-GPTQ
huggingface-cli download TheBloke/GEITje-7B-chat-GPTQ --local-dir GEITje-7B-chat-GPTQ --local-dir-use-symlinks False
異なるブランチからダウンロードするには、--revision
パラメータを追加します。
mkdir GEITje-7B-chat-GPTQ
huggingface-cli download TheBloke/GEITje-7B-chat-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir GEITje-7B-chat-GPTQ --local-dir-use-symlinks False
huggingface-cliの高度なダウンロード使用方法
--local-dir-use-symlinks False
パラメータを削除すると、ファイルは中央のHugging Faceキャッシュディレクトリ(Linuxのデフォルトの場所は~/.cache/huggingface
)に保存され、指定された--local-dir
にシンボリックリンクが追加され、キャッシュ内の実際の場所を指します。これにより、中断したダウンロードを再開でき、ディスク上の複数の場所にリポジトリをすばやくクローンでき、再ダウンロードをトリガーすることなく済みます。ただし、ファイルがキャッシュフォルダに隠されてしまい、ディスクスペースの使用状況がわかりにくくなり、ダウンロードしたモデルを削除する際にクリーンアップが難しくなるという欠点があります。
キャッシュの場所は、HF_HOME
環境変数および/またはhuggingface-cli
の--cache-dir
パラメータで変更できます。
huggingface-cli
でダウンロードするための詳細なドキュメントについては、HF -> Hub Python Library -> Download files -> Download from the CLIを参照してください。
高速接続(1Gbit/s以上)でのダウンロードを高速化するには、hf_transfer
をインストールします。
pip3 install hf_transfer
そして、環境変数HF_HUB_ENABLE_HF_TRANSFER
を1
に設定します。
mkdir GEITje-7B-chat-GPTQ
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/GEITje-7B-chat-GPTQ --local-dir GEITje-7B-chat-GPTQ --local-dir-use-symlinks False
Windowsコマンドラインユーザーは、ダウンロードコマンドの前にset HF_HUB_ENABLE_HF_TRANSFER=1
を実行して環境変数を設定できます。
git
を使用したダウンロード(おすすめしません)
特定のブランチをgit
でクローンするには、次のようなコマンドを使用します。
git clone --single-branch --branch gptq-4bit-32g-actorder_True https://huggingface.co/TheBloke/GEITje-7B-chat-GPTQ
なお、GitをHFリポジトリとともに使用することは強くおすすめしません。huggingface-hub
を使用するよりもはるかに遅く、モデルファイルを2回保存する必要があるため、ディスクスペースを2倍使ってしまいます(意図したターゲットフォルダと.git
フォルダの両方に保存されます)。
text-generation-webuiでのモデルのダウンロードと使用方法
text-generation-webuiの最新バージョンを使用していることを確認してください。
手動インストール方法を熟知していない限り、text-generation-webuiのワンクリックインストーラーを使用することを強くおすすめします。
- Modelタブをクリックします。
- Download custom model or LoRAの下に、
TheBloke/GEITje-7B-chat-GPTQ
を入力します。- 特定のブランチからダウンロードするには、例えば
TheBloke/GEITje-7B-chat-GPTQ:gptq-4bit-32g-actorder_True
のように入力します。 - 各オプションのブランチのリストについては、上記の「提供されるファイルとGPTQパラメータ」を参照してください。
- 特定のブランチからダウンロードするには、例えば
- Downloadをクリックします。
- モデルのダウンロードが開始されます。完了すると、"Done"と表示されます。
- 左上のModelの横にあるリフレッシュアイコンをクリックします。
- Modelのドロップダウンメニューから、先ほどダウンロードしたモデル
GEITje-7B-chat-GPTQ
を選択します。 - モデルは自動的にロードされ、使用可能な状態になります!
- カスタム設定が必要な場合は、設定を行ってから右上のSave settings for this modelをクリックし、続いてReload the Modelをクリックします。
- 手動でGPTQパラメータを設定する必要はなく、しかも設定しないでください。これらは
quantize_config.json
ファイルから自動的に設定されます。
- 手動でGPTQパラメータを設定する必要はなく、しかも設定しないでください。これらは
- 準備ができたら、Text Generationタブをクリックし、プロンプトを入力して開始します!
Text Generation Inference (TGI)からのモデルの提供
TGIバージョン1.1.0以上を使用することをおすすめします。公式のDockerコンテナはghcr.io/huggingface/text-generation-inference:1.1.0
です。
例のDockerパラメータ:
--model-id TheBloke/GEITje-7B-chat-GPTQ --port 3000 --quantize gptq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096
TGIとやり取りするための例のPythonコード(huggingface-hub 0.17.0以上が必要):
pip3 install huggingface-hub
from huggingface_hub import InferenceClient
endpoint_url = "https://your-endpoint-url-here"
prompt = "Tell me about AI"
prompt_template=f'''<|user|>
{prompt}
<|assistant|>
'''
client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
max_new_tokens=128,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1)
print(f"Model output: {response}")
Pythonコード例: このGPTQモデルからの推論
必要なパッケージのインストール
Transformers 4.33.0以上、Optimum 1.12.0以上、およびAutoGPTQ 0.4.2以上が必要です。
pip3 install --upgrade transformers optimum
# PyTorch 2.1 + CUDA 12.xを使用する場合:
pip3 install --upgrade auto-gptq
# または、PyTorch 2.1 + CUDA 11.xを使用する場合:
pip3 install --upgrade auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/
PyTorch 2.0を使用している場合は、AutoGPTQをソースからインストールする必要があります。同様に、事前構築されたホイールに問題がある場合は、ソースからビルドしてみることをおすすめします。
pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.5.1
pip3 install .
例のPythonコード
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
model_name_or_path = "TheBloke/GEITje-7B-chat-GPTQ"
# 別のブランチを使用する場合は、revisionを変更します。
# 例: revision="gptq-4bit-32g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto",
trust_remote_code=False,
revision="main")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
# パイプラインを作成します。
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
max_new_tokens=512,
temperature=0.7,
top_p=0.95,
repetition_penalty=1.1
)
# プロンプトを定義します。
prompt = "Tell me about AI"
prompt_template=f'''<|user|>
{prompt}
<|assistant|>
'''
# 推論を実行します。
output = pipe(prompt_template)[0]['generated_text']
print("Model output:", output)
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。



