モデル概要
モデル特徴
モデル能力
使用事例
🚀 Storytime 13B - GPTQ
このモデルは、Charles Goddardによって開発されたStorytime 13BのGPTQモデルファイルを提供します。複数のGPTQパラメータのパーミュテーションが用意されており、ハードウェアと要件に最適なものを選ぶことができます。

TheBlokeのLLMに関する作業は、andreessen horowitz (a16z)からの助成金によって支援されています。
📚 ドキュメント
モデル情報
- モデル作成者: Charles Goddard
- オリジナルモデル: Storytime 13B
説明
このリポジトリには、Charles GoddardのStorytime 13BのGPTQモデルファイルが含まれています。複数のGPTQパラメータのパーミュテーションが提供されており、以下の「提供されているファイルとGPTQパラメータ」で各オプションの詳細、パラメータ、および作成に使用されたソフトウェアについて説明しています。
利用可能なリポジトリ
- GPU推論用のAWQモデル
- 複数の量子化パラメータオプションを持つGPU推論用のGPTQモデル
- CPU+GPU推論用の2、3、4、5、6、および8ビットのGGUFモデル
- GPU推論およびさらなる変換用の、Charles Goddardの元の量子化されていないfp16モデル(pytorch形式)
プロンプトテンプレート: Alpaca
以下はタスクを説明する指示です。要求を適切に完了する応答を書いてください。
### 指示:
{prompt}
### 応答:
提供されているファイルとGPTQパラメータ
複数の量子化パラメータが提供されており、ハードウェアと要件に最適なものを選ぶことができます。各個別の量子化は異なるブランチにあります。異なるブランチから取得する方法については、以下を参照してください。最近のすべてのGPTQファイルはAutoGPTQで作成されており、main
ブランチ以外のすべてのファイルはAutoGPTQで作成されています。2023年8月より前にアップロードされたmain
ブランチのファイルは、GPTQ-for-LLaMaで作成されています。
GPTQパラメータの説明
- ビット数: 量子化されたモデルのビットサイズ。
- GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。「None」は可能な最低値です。
- Act Order: 真または偽。
desc_act
とも呼ばれます。真の場合、より高い量子化精度が得られます。一部のGPTQクライアントでは、Act Orderとグループサイズを使用するモデルに問題がありましたが、現在は一般的に解決されています。 - Damp %: 量子化のためにサンプルが処理される方法に影響を与えるGPTQパラメータ。デフォルトは0.01ですが、0.1の方がわずかに精度が向上します。
- GPTQデータセット: 量子化中に使用されるキャリブレーションデータセット。モデルのトレーニングに適したデータセットを使用すると、量子化精度を向上させることができます。GPTQキャリブレーションデータセットは、モデルのトレーニングに使用されるデータセットとは異なることに注意してください。トレーニングデータセットの詳細については、元のモデルリポジトリを参照してください。
- シーケンス長: 量子化に使用されるデータセットシーケンスの長さ。理想的には、これはモデルのシーケンス長と同じです。一部の非常に長いシーケンスモデル(16K以上)では、より短いシーケンス長を使用する必要がある場合があります。ただし、短いシーケンス長は量子化されたモデルのシーケンス長を制限するものではありません。長い推論シーケンスでの量子化精度にのみ影響します。
- ExLlama互換性: このファイルがExLlamaでロードできるかどうか。現在、ExLlamaは4ビットのLlamaモデルのみをサポートしています。
ブランチ | ビット数 | GS | Act Order | Damp % | GPTQデータセット | シーケンス長 | サイズ | ExLlama | 説明 |
---|---|---|---|---|---|---|---|---|---|
main | 4 | 128 | はい | 0.1 | wikitext | 4096 | 7.26 GB | はい | 4ビット、Act Orderとグループサイズ128g。64gよりもVRAMの使用量が少ないですが、精度はわずかに低くなります。 |
gptq-4-32g-actorder_True | 4 | 32 | はい | 0.1 | wikitext | 4096 | 8.00 GB | はい | 4ビット、Act Orderとグループサイズ32g。最大の推論品質を提供しますが、VRAMの使用量が最大になります。 |
gptq-8--1g-actorder_True | 8 | None | はい | 0.1 | wikitext | 4096 | 13.36 GB | いいえ | 8ビット、Act Order。グループサイズなし、VRAMの要件を下げます。 |
gptq-8-128g-actorder_True | 8 | 128 | はい | 0.1 | wikitext | 4096 | 13.65 GB | いいえ | 8ビット、グループサイズ128gでより高い推論品質、Act Orderでさらに高い精度。 |
gptq-8-32g-actorder_True | 8 | 32 | はい | 0.1 | wikitext | 4096 | 14.54 GB | いいえ | 8ビット、グループサイズ32gとAct Orderで最大の推論品質。 |
gptq-4-64g-actorder_True | 4 | 64 | はい | 0.1 | wikitext | 4096 | 7.51 GB | はい | 4ビット、Act Orderとグループサイズ64g。32gよりもVRAMの使用量が少ないですが、精度はわずかに低くなります。 |
ダウンロード方法(ブランチからのダウンロードを含む)
text-generation-webuiでのダウンロード
main
ブランチからダウンロードするには、「モデルをダウンロード」ボックスにTheBloke/storytime-13B-GPTQ
を入力します。他のブランチからダウンロードするには、ダウンロード名の末尾に:branchname
を追加します。例えば、TheBloke/storytime-13B-GPTQ:gptq-4-32g-actorder_True
のようにします。
コマンドラインからのダウンロード
huggingface-hub
Pythonライブラリの使用をおすすめします。
pip3 install huggingface-hub
main
ブランチをstorytime-13B-GPTQ
というフォルダにダウンロードするには、以下のコマンドを実行します。
mkdir storytime-13B-GPTQ
huggingface-cli download TheBloke/storytime-13B-GPTQ --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False
異なるブランチからダウンロードするには、--revision
パラメータを追加します。
mkdir storytime-13B-GPTQ
huggingface-cli download TheBloke/storytime-13B-GPTQ --revision gptq-4-32g-actorder_True --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False
huggingface-cliダウンロードの高度な使用方法
--local-dir-use-symlinks False
パラメータを削除すると、ファイルは代わりに中央のHuggingfaceキャッシュディレクトリ(Linuxのデフォルトの場所は~/.cache/huggingface
)に保存され、指定された--local-dir
にシンボリックリンクが追加され、キャッシュ内の実際の場所を指します。これにより、中断されたダウンロードを再開でき、ディスク上の複数の場所にリポジトリをすばやくクローンでき、再ダウンロードをトリガーすることなく済みます。ただし、これがデフォルトオプションとしてリストされていない理由は、ファイルがキャッシュフォルダに隠されるため、ディスクスペースの使用場所がわかりにくく、ダウンロードしたモデルを削除する際にクリーンアップが難しくなるからです。
キャッシュの場所は、HF_HOME
環境変数とhuggingface-cli
の--cache-dir
パラメータで変更できます。huggingface-cli
でダウンロードするための詳細なドキュメントについては、HF -> Hub Python Library -> Download files -> Download from the CLIを参照してください。高速接続(1Gbit/s以上)でのダウンロードを高速化するには、hf_transfer
をインストールします。
pip3 install hf_transfer
そして、環境変数HF_HUB_ENABLE_HF_TRANSFER
を1
に設定します。
mkdir storytime-13B-GPTQ
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/storytime-13B-GPTQ --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False
Windowsコマンドラインユーザーは、ダウンロードコマンドの前にset HF_HUB_ENABLE_HF_TRANSFER=1
を実行して環境変数を設定できます。
git
を使用したダウンロード(推奨しません)
git
で特定のブランチをクローンするには、次のようなコマンドを使用します。
git clone --single-branch --branch gptq-4-32g-actorder_True https://huggingface.co/TheBloke/storytime-13B-GPTQ
HFリポジトリでGitを使用することは強くお勧めしません。huggingface-hub
を使用するよりもはるかに遅く、モデルファイルを2回保存する必要があるため(意図したターゲットフォルダと.git
フォルダの両方に保存される)、ディスクスペースを2倍使います。
text-generation-webuiでこのモデルを簡単にダウンロードして使用する方法
text-generation-webuiの最新バージョンを使用していることを確認してください。手動インストール方法をよく理解していない限り、text-generation-webuiのワンクリックインストーラーの使用を強くおすすめします。
- モデルタブをクリックします。
- カスタムモデルまたはLoRAをダウンロードの下に、
TheBloke/storytime-13B-GPTQ
を入力します。
- 特定のブランチからダウンロードするには、例えば
TheBloke/storytime-13B-GPTQ:gptq-4-32g-actorder_True
のように入力します。 - 各オプションのブランチのリストについては、上記の「提供されているファイルとGPTQパラメータ」を参照してください。
- ダウンロードをクリックします。
- モデルのダウンロードが開始されます。完了すると「完了」と表示されます。
- 左上のモデルの横にある更新アイコンをクリックします。
- モデルのドロップダウンで、先ほどダウンロードしたモデル
storytime-13B-GPTQ
を選択します。 - モデルは自動的にロードされ、使用可能な状態になります!
- カスタム設定が必要な場合は、設定を行ってから右上の「このモデルの設定を保存」をクリックし、続いて「モデルを再読み込み」をクリックします。
- 手動でGPTQパラメータを設定する必要はなく、設定しないでください。これらは
quantize_config.json
ファイルから自動的に設定されます。
- 準備ができたら、テキスト生成タブをクリックし、プロンプトを入力して開始します!
PythonコードからこのGPTQモデルを使用する方法
必要なパッケージのインストール
Transformers 4.33.0以降、Optimum 1.12.0以降、およびAutoGPTQ 0.4.2以降が必要です。
pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/ # CUDA 11.7の場合はcu117を使用
事前構築済みのホイールを使用してAutoGPTQをインストールする際に問題がある場合は、代わりにソースからインストールします。
pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .
コードの使用例
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
model_name_or_path = "TheBloke/storytime-13B-GPTQ"
# 別のブランチを使用する場合は、revisionを変更します。
# 例: revision="gptq-4-32g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto",
trust_remote_code=False,
revision="main")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
'''
print("\n\n*** Generate:")
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))
# 推論は、transformersのpipelineを使用しても行えます。
print("*** Pipeline:")
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
max_new_tokens=512,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1
)
print(pipe(prompt_template)[0]['generated_text'])
互換性
提供されているファイルは、Transformersを介してもAutoGPTQを直接使用しても、AutoGPTQで動作することがテストされています。Occ4mのGPTQ-for-LLaMaフォークでも動作するはずです。
ExLlamaは4ビットのLlamaモデルと互換性があります。各ファイルの互換性については、上記の「提供されているファイルとGPTQパラメータ」の表を参照してください。
Huggingface Text Generation Inference (TGI)は、すべてのGPTQモデルと互換性があります。
📄 ライセンス
このモデルは、Llama 2のライセンスの下で提供されています。
Discord
これらのモデルやAI全般に関するさらなるサポートや議論に参加するには、以下のDiscordサーバーに参加してください。
謝辞と貢献方法
chirper.aiチームに感謝します!
gpus.llm-utils.orgのClayに感謝します!
多くの人から貢献できるかどうか尋ねられています。私はモデルを提供し、人々を助けることが好きであり、もっと多くの時間を費やせるようになることを楽しみにしています。



