モデル概要
モデル特徴
モデル能力
使用事例
🚀 Llama 2 13B Chat - GPTQ
このリポジトリは、MetaのLlama 2 13B-chatのGPTQモデルファイルを提供します。複数のGPTQパラメータの組み合わせが用意されており、ハードウェアと要件に合わせて最適なものを選択できます。
🚀 クイックスタート

TheBlokeのLLM関連の作業は、andreessen horowitz (a16z)からの助成金によって支援されています。
- モデル作成者: Meta Llama 2
- オリジナルモデル: Llama 2 13B Chat
📚 ドキュメント
説明
このリポジトリには、MetaのLlama 2 13B-chatのGPTQモデルファイルが含まれています。複数のGPTQパラメータの組み合わせが提供されており、以下の「提供されるファイル」で各オプションの詳細、パラメータ、および作成に使用されたソフトウェアについて説明しています。
利用可能なリポジトリ
- GPU推論用のAWQモデル
- 複数の量子化パラメータオプションを持つGPU推論用のGPTQモデル
- CPU+GPU推論用の2、3、4、5、6、および8ビットのGGUFモデル
- GPU推論およびさらなる変換用の、pytorch形式のMeta Llama 2のオリジナルの非量子化fp16モデル
プロンプトテンプレート: Llama-2-Chat
[INST] <<SYS>>
あなたは役立ち、礼儀正しく、正直なアシスタントです。できる限り有益な回答をしながら、安全を確保してください。回答には、有害な、非倫理的な、人種差別的な、性差別的な、有毒な、危険な、または違法な内容を含めないでください。回答が社会的に偏見がなく、前向きな性質であることを確認してください。質問が意味を成さない場合、または事実的に一貫性がない場合、正しくない回答をする代わりに、その理由を説明してください。質問の答えが分からない場合は、誤った情報を共有しないでください。
<</SYS>>
{prompt}[/INST]
提供されるファイルとGPTQパラメータ
複数の量子化パラメータが提供されており、ハードウェアと要件に最適なものを選択できます。各量子化は異なるブランチにあります。異なるブランチから取得する方法については、以下を参照してください。
最近のすべてのGPTQファイルはAutoGPTQで作成されており、非メインブランチのすべてのファイルもAutoGPTQで作成されています。2023年8月より前にアップロードされたmain
ブランチのファイルは、GPTQ-for-LLaMaで作成されています。
GPTQパラメータの説明
- Bits: 量子化モデルのビットサイズ。
- GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。「None」は最低の値です。
- Act Order: TrueまたはFalse。
desc_act
とも呼ばれます。Trueの場合、より高い量子化精度が得られます。一部のGPTQクライアントでは、Act Orderとグループサイズを併用したモデルに問題がありましたが、現在はほとんど解決されています。 - Damp %: 量子化のためにサンプルが処理される方法に影響を与えるGPTQパラメータです。デフォルトは0.01ですが、0.1の方がわずかに精度が向上します。
- GPTQデータセット: 量子化に使用されるデータセット。モデルの学習に適したデータセットを使用すると、量子化精度が向上します。GPTQデータセットは、モデルの学習に使用されるデータセットとは異なることに注意してください。学習データセットの詳細については、元のモデルリポジトリを参照してください。
- シーケンス長: 量子化に使用されるデータセットシーケンスの長さ。理想的には、モデルのシーケンス長と同じです。一部の非常に長いシーケンスモデル(16+K)では、より短いシーケンス長を使用する必要がある場合があります。ただし、短いシーケンス長は量子化モデルのシーケンス長を制限するものではありません。長い推論シーケンスでの量子化精度にのみ影響します。
- ExLlama互換性: このファイルがExLlamaで読み込めるかどうか。現在、ExLlamaは4ビットのLlamaモデルのみをサポートしています。
ブランチ | Bits | GS | Act Order | Damp % | GPTQデータセット | シーケンス長 | サイズ | ExLlama | 説明 |
---|---|---|---|---|---|---|---|---|---|
main | 4 | 128 | いいえ | 0.01 | wikitext | 4096 | 7.26 GB | はい | 4ビット、Act Orderなし、グループサイズ128g。 |
gptq-4bit-32g-actorder_True | 4 | 32 | はい | 0.01 | wikitext | 4096 | 8.00 GB | はい | 4ビット、Act Orderあり、グループサイズ32g。最大のVRAM使用量で、最高の推論品質を提供します。 |
gptq-4bit-64g-actorder_True | 4 | 64 | はい | 0.01 | wikitext | 4096 | 7.51 GB | はい | 4ビット、Act Orderあり、グループサイズ64g。32gよりもVRAMの使用量が少ないが、精度はわずかに低い。 |
gptq-4bit-128g-actorder_True | 4 | 128 | はい | 0.01 | wikitext | 4096 | 7.26 GB | はい | 4ビット、Act Orderあり、グループサイズ128g。64gよりもさらにVRAMの使用量が少ないが、精度はわずかに低い。 |
gptq-8bit-128g-actorder_True | 8 | 128 | はい | 0.01 | wikitext | 4096 | 13.65 GB | いいえ | 8ビット、グループサイズ128gでより高い推論品質、Act Orderでさらに高い精度。 |
gptq-8bit-64g-actorder_True | 8 | 64 | はい | 0.01 | wikitext | 4096 | 13.95 GB | いいえ | 8ビット、グループサイズ64gとAct Orderでさらに高い推論品質。AutoGPTQ CUDAの速度が遅い。 |
gptq-8bit-128g-actorder_False | 8 | 128 | いいえ | 0.01 | wikitext | 4096 | 13.65 GB | いいえ | 8ビット、グループサイズ128gでより高い推論品質、Act OrderなしでAutoGPTQの速度を向上させます。 |
gptq-8bit--1g-actorder_True | 8 | なし | はい | 0.01 | wikitext | 4096 | 13.36 GB | いいえ | 8ビット、Act Orderあり。グループサイズなしで、VRAM要件を低く抑えます。 |
ブランチからのダウンロード方法
- text-generation-webuiでは、ダウンロード名の末尾に
:ブランチ名
を追加できます。例えば、TheBloke/Llama-2-13B-chat-GPTQ:main
- Gitを使用する場合は、次のコマンドでブランチをクローンできます。
git clone --single-branch --branch main https://huggingface.co/TheBloke/Llama-2-13B-chat-GPTQ
- Python Transformersコードでは、ブランチは
revision
パラメータで指定します。以下を参照してください。
text-generation-webuiでこのモデルを簡単にダウンロードして使用する方法
最新バージョンのtext-generation-webuiを使用していることを確認してください。手動インストール方法を熟知していない限り、text-generation-webuiのワンクリックインストーラーを使用することを強くお勧めします。
- モデルタブをクリックします。
- カスタムモデルまたはLoRAをダウンロードの下に、
TheBloke/Llama-2-13B-chat-GPTQ
を入力します。
- 特定のブランチからダウンロードする場合は、例えば
TheBloke/Llama-2-13B-chat-GPTQ:main
のように入力します。 - 各オプションのブランチのリストについては、上記の「提供されるファイル」を参照してください。
- ダウンロードをクリックします。
- モデルのダウンロードが開始されます。完了すると「完了」と表示されます。
- 左上のモデルの横にある更新アイコンをクリックします。
- モデルのドロップダウンメニューで、先ほどダウンロードしたモデル
Llama-2-13B-chat-GPTQ
を選択します。 - モデルは自動的に読み込まれ、使用可能になります。
- カスタム設定が必要な場合は、設定を行ってから、右上のこのモデルの設定を保存をクリックし、続いてモデルを再読み込みをクリックします。
- 手動でGPTQパラメータを設定する必要はなく、設定しないでください。これらは
quantize_config.json
ファイルから自動的に設定されます。
- 準備ができたら、テキスト生成タブをクリックし、プロンプトを入力して始めましょう!
PythonコードからこのGPTQモデルを使用する方法
必要なパッケージのインストール
Transformers 4.32.0以降、Optimum 1.12.0以降、およびAutoGPTQ 0.4.2以降が必要です。
pip3 install transformers>=4.32.0 optimum>=1.12.0
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/ # CUDA 11.7の場合はcu117を使用
事前構築済みのホイールを使用してAutoGPTQをインストールする際に問題が発生した場合は、代わりにソースからインストールしてください。
pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
pip3 install .
CodeLlamaモデルのみ: Transformers 4.33.0以降を使用する必要があります。
このドキュメントを読んでいる時点で4.33.0がまだリリースされていない場合は、ソースからTransformersをインストールする必要があります。
pip3 uninstall -y transformers
pip3 install git+https://github.com/huggingface/transformers.git
次のコードを使用できます
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
model_name_or_path = "TheBloke/Llama-2-13B-chat-GPTQ"
# 別のブランチを使用する場合は、revisionを変更します。
# 例: revision="main"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto",
trust_remote_code=False,
revision="main")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
prompt = "Tell me about AI"
prompt_template=f'''[INST] <<SYS>>
You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature. If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information.
<</SYS>>
{prompt}[/INST]
'''
print("\n\n*** Generate:")
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))
# 推論は、transformersのpipelineを使用しても行えます。
print("*** Pipeline:")
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
max_new_tokens=512,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1
)
print(pipe(prompt_template)[0]['generated_text'])
互換性
提供されるファイルは、Transformersを介して、およびAutoGPTQを直接使用して、AutoGPTQで動作することがテストされています。Occ4mのGPTQ-for-LLaMaフォークでも動作するはずです。
ExLlamaは4ビットのLlamaモデルと互換性があります。各ファイルの互換性については、上記の「提供されるファイル」表を参照してください。
Huggingface Text Generation Inference (TGI)は、すべてのGPTQモデルと互換性があります。
Discord
これらのモデルやAI全般に関するさらなるサポートや議論に参加するには、以下に参加してください。
謝辞と貢献方法
chirper.aiチームに感謝します!
gpus.llm-utils.orgのClayに感謝します!
多くの人から貢献できるかどうか尋ねられています。私はモデルを提供し、人々を助けることが好きであり、それにさらに多くの時間を費やし、微調整/トレーニングなどの新しいプロジェクトに進出できることを楽しみにしています。
貢献できる方は、大いに感謝し、より多くのモデルを提供し続け、新しいAIプロジェクトの作業を開始するのに役立ちます。
寄付者は、すべてのAI/LLM/モデルに関する質問やリクエストに対する優先サポート、プライベートDiscordルームへのアクセス、およびその他の特典を受けることができます。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI



