🚀 Llama2 13B Tiefighter - GPTQ
このモデルは、KoboldAIによって作成されたLlama2 13B TiefighterのGPTQモデルファイルを含んでいます。複数のGPTQパラメータの組み合わせが提供されており、ハードウェアと要件に合わせて最適なものを選ぶことができます。
🚀 クイックスタート
このモデルは、GPTQ形式で提供されており、様々な推論サーバーやWeb UIで使用できます。以下に、ダウンロードと使用方法の詳細を説明します。
✨ 主な機能
- 複数のGPTQパラメータの組み合わせが提供され、ハードウェアと要件に合わせて最適なものを選ぶことができます。
- 様々な推論サーバーやWeb UIと互換性があります。
📦 インストール
text-generation-webuiでのダウンロード
main
ブランチからダウンロードするには、「Download model」ボックスにTheBloke/LLaMA2-13B-Tiefighter-GPTQ
を入力します。
- 他のブランチからダウンロードするには、ダウンロード名の末尾に
:branchname
を追加します。例えば、TheBloke/LLaMA2-13B-Tiefighter-GPTQ:gptq-4bit-32g-actorder_True
コマンドラインからのダウンロード
huggingface-hub
Pythonライブラリを使用することをおすすめします。
pip3 install huggingface-hub
main
ブランチをLLaMA2-13B-Tiefighter-GPTQ
というフォルダにダウンロードするには、以下のコマンドを実行します。
mkdir LLaMA2-13B-Tiefighter-GPTQ
huggingface-cli download TheBloke/LLaMA2-13B-Tiefighter-GPTQ --local-dir LLaMA2-13B-Tiefighter-GPTQ --local-dir-use-symlinks False
異なるブランチからダウンロードするには、--revision
パラメータを追加します。
mkdir LLaMA2-13B-Tiefighter-GPTQ
huggingface-cli download TheBloke/LLaMA2-13B-Tiefighter-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir LLaMA2-13B-Tiefighter-GPTQ --local-dir-use-symlinks False
💻 使用例
text-generation-webuiでの使用方法
- Modelタブをクリックします。
- Download custom model or LoRAの下に、
TheBloke/LLaMA2-13B-Tiefighter-GPTQ
を入力します。
- 特定のブランチからダウンロードするには、例えば
TheBloke/LLaMA2-13B-Tiefighter-GPTQ:gptq-4bit-32g-actorder_True
と入力します。
- 各オプションのブランチのリストについては、上記の「Provided Files」を参照してください。
- Downloadをクリックします。
- モデルのダウンロードが開始されます。完了すると「Done」と表示されます。
- 左上のModelの横にある更新アイコンをクリックします。
- Modelのドロップダウンで、先ほどダウンロードしたモデル
LLaMA2-13B-Tiefighter-GPTQ
を選択します。
- モデルが自動的にロードされ、使用可能になります!
- カスタム設定が必要な場合は、設定してから右上のSave settings for this modelをクリックし、続いてReload the Modelをクリックします。
- 手動でGPTQパラメータを設定する必要はなく、してはいけません。これらは
quantize_config.json
ファイルから自動的に設定されます。
- 準備ができたら、Text Generationタブをクリックし、プロンプトを入力して始めましょう!
Text Generation Inference (TGI)からの使用方法
TGIバージョン1.1.0以上の使用をおすすめします。公式のDockerコンテナは、ghcr.io/huggingface/text-generation-inference:1.1.0
です。
例のDockerパラメータ:
--model-id TheBloke/LLaMA2-13B-Tiefighter-GPTQ --port 3000 --quantize gptq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096
TGIとやり取りするための例のPythonコード(huggingface-hub 0.17.0以上が必要):
pip3 install huggingface-hub
from huggingface_hub import InferenceClient
endpoint_url = "https://your-endpoint-url-here"
prompt = "Tell me about AI"
prompt_template=f'''### Instruction:
{prompt}
### Response:
'''
client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
max_new_tokens=128,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1)
print(f"Model output: {response}")
Pythonコードからの使用方法
必要なパッケージのインストール
Transformers 4.33.0以上、Optimum 1.12.0以上、およびAutoGPTQ 0.4.2以上が必要です。
pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/ # CUDA 11.7の場合はcu117を使用
AutoGPTQを事前構築のホイールを使用してインストールする際に問題がある場合は、代わりにソースからインストールします。
pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .
以下のコードを使用できます
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
model_name_or_path = "TheBloke/LLaMA2-13B-Tiefighter-GPTQ"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto",
trust_remote_code=False,
revision="main")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
prompt = "Tell me about AI"
prompt_template=f'''### Instruction:
{prompt}
### Response:
'''
print("\n\n*** Generate:")
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(input_ids, max_new_tokens=128, do_sample=True, temperature=0.7, top_p=0.95, top_k=40, repetition_penalty=1.1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(f"Model output: {generated_text}")
📚 詳細ドキュメント
説明
このリポジトリには、KoboldAIのLlama2 13B TiefighterのGPTQモデルファイルが含まれています。
複数のGPTQパラメータの組み合わせが提供されており、以下の「Provided Files」で提供されるオプション、それらのパラメータ、および作成に使用されたソフトウェアの詳細を確認できます。
利用可能なリポジトリ
プロンプトテンプレート: Alpaca-Tiefighter
### Instruction:
{prompt}
### Response:
互換性のあるクライアント/サーバー
これらのGPTQは、以下の推論サーバー/ウェブUIで動作することが知られています。
提供されるファイルとGPTQパラメータ
複数の量子化パラメータが提供されており、ハードウェアと要件に最適なものを選ぶことができます。
それぞれの個別の量子化は異なるブランチにあります。異なるブランチから取得する方法については、以下を参照してください。
ほとんどのGPTQファイルはAutoGPTQで作成されています。Mistralモデルは現在、Transformersで作成されています。
GPTQパラメータの説明
- Bits: 量子化されたモデルのビットサイズ。
- GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。「None」は可能な最低値です。
- Act Order: TrueまたはFalse。
desc_act
とも呼ばれます。Trueの場合、より高い量子化精度が得られます。一部のGPTQクライアントでは、Act Orderとグループサイズを使用するモデルに問題がありましたが、現在は一般的に解決されています。
- Damp %: 量子化のためにサンプルが処理される方法に影響を与えるGPTQパラメータ。デフォルトは0.01ですが、0.1の方がわずかに精度が向上します。
- GPTQデータセット: 量子化中に使用されるキャリブレーションデータセット。モデルのトレーニングにより適したデータセットを使用すると、量子化精度を向上させることができます。GPTQキャリブレーションデータセットは、モデルのトレーニングに使用されるデータセットとは異なることに注意してください。トレーニングデータセットの詳細については、元のモデルリポジトリを参照してください。
- シーケンス長: 量子化に使用されるデータセットシーケンスの長さ。理想的には、モデルのシーケンス長と同じです。一部の非常に長いシーケンスモデル(16K以上)では、より短いシーケンス長を使用する必要がある場合があります。ただし、シーケンス長を短くすると、量子化されたモデルのシーケンス長が制限されるわけではありません。長い推論シーケンスでの量子化精度にのみ影響します。
- ExLlama互換性: このファイルをExLlamaでロードできるかどうか。現在、ExLlamaは4ビットのLlamaモデルのみをサポートしています。
🔧 技術詳細
各GPTQファイルの作成には、主にAutoGPTQが使用されていますが、Mistralモデルは現在Transformersで作成されています。量子化パラメータ(Bits、GS、Act Order、Damp %など)は、ハードウェアと要件に合わせて最適な量子化を選択できるように調整されています。
📄 ライセンス
このモデルはLlama2のライセンスの下で提供されています。