モデル概要
モデル特徴
モデル能力
使用事例
🚀 アテナ v4 - GPTQ
このモデルは、IkariDev と Undi95 によって開発されたアテナ v4 の GPTQ モデルです。複数の GPTQ パラメータのパーミュテーションが提供されており、ハードウェアと要件に合わせて最適なものを選ぶことができます。

TheBlokeのLLM開発は、andreessen horowitz (a16z)からの助成金によって支援されています。
🚀 クイックスタート
このモデルの利用方法やダウンロード方法について説明します。
✨ 主な機能
- 複数のGPTQパラメータのパーミュテーションが提供されており、ハードウェアと要件に合わせて最適なものを選ぶことができます。
- 異なるブランチからのダウンロードに対応しています。
- text-generation-webuiやPythonコードからの利用が可能です。
📦 インストール
text-generation-webuiでのダウンロード
- モデルタブをクリックします。
- カスタムモデルまたはLoRAをダウンロードの下にある入力欄に、
TheBloke/Athena-v4-GPTQ
を入力します。
- 特定のブランチからダウンロードする場合は、例えば
TheBloke/Athena-v4-GPTQ:gptq-4bit-32g-actorder_True
のように入力します。
- ダウンロードをクリックします。
- モデルのダウンロードが開始され、完了すると「完了」と表示されます。
- 左上の モデル の横にある更新アイコンをクリックします。
- モデル のドロップダウンメニューから、先ほどダウンロードしたモデル
Athena-v4-GPTQ
を選択します。 - モデルが自動的にロードされ、利用可能になります。
- カスタム設定が必要な場合は、設定を行ってから右上の このモデルの設定を保存 をクリックし、続いて モデルを再読み込み をクリックします。
- 手動でGPTQパラメータを設定する必要はありません。これらは
quantize_config.json
ファイルから自動的に設定されます。
- 準備ができたら、テキスト生成タブ をクリックし、プロンプトを入力して始めましょう!
コマンドラインからのダウンロード
huggingface-hub
Pythonライブラリを使用することをおすすめします。
pip3 install huggingface-hub
main
ブランチを Athena-v4-GPTQ
というフォルダにダウンロードするには、以下のコマンドを実行します。
mkdir Athena-v4-GPTQ
huggingface-cli download TheBloke/Athena-v4-GPTQ --local-dir Athena-v4-GPTQ --local-dir-use-symlinks False
異なるブランチからダウンロードする場合は、--revision
パラメータを追加します。
mkdir Athena-v4-GPTQ
huggingface-cli download TheBloke/Athena-v4-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir Athena-v4-GPTQ --local-dir-use-symlinks False
💻 使用例
Pythonコードからの利用
必要なパッケージをインストールします。
pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/ # CUDA 11.7の場合はcu117を使用
AutoGPTQの事前構築済みホイールを使用してインストールできない場合は、ソースからインストールします。
pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .
以下のコードを使用してモデルを利用します。
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
model_name_or_path = "TheBloke/Athena-v4-GPTQ"
# 異なるブランチを使用する場合は、revisionを変更します
# 例: revision="gptq-4bit-32g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto",
trust_remote_code=False,
revision="main")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)
prompt = "AIについて教えて"
output = pipe(prompt, max_new_tokens=128, do_sample=True, temperature=0.7, top_p=0.95, top_k=40, repetition_penalty=1.1)
print(output[0]['generated_text'])
Text Generation Inference (TGI) からの利用
TGIバージョン1.1.0以上を使用することをおすすめします。公式のDockerコンテナは ghcr.io/huggingface/text-generation-inference:1.1.0
です。
--model-id TheBloke/Athena-v4-GPTQ --port 3000 --quantize awq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096
TGIとやり取りするためのPythonコードの例(huggingface-hub 0.17.0以上が必要)
pip3 install huggingface-hub
from huggingface_hub import InferenceClient
endpoint_url = "https://your-endpoint-url-here"
prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
'''
client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
max_new_tokens=128,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1)
print(f"Model output: {response}")
📚 ドキュメント
説明
このリポジトリには、IkariDev + Undi95のアテナ v4 のGPTQモデルファイルが含まれています。
利用可能なリポジトリ
- GPU推論用のAWQモデル
- GPU推論用のGPTQモデル(複数の量子化パラメータオプションあり)
- CPU+GPU推論用の2、3、4、5、6、8ビットのGGUFモデル
- IkariDev + Undi95のオリジナルの非量子化fp16モデル(pytorch形式、GPU推論およびさらなる変換用)
プロンプトテンプレート: Alpaca
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
提供されるファイルとGPTQパラメータ
複数の量子化パラメータが提供されており、ハードウェアと要件に合わせて最適なものを選ぶことができます。
各量子化は異なるブランチにあります。異なるブランチからの取得方法については、以下を参照してください。
ほとんどのGPTQファイルはAutoGPTQで作成されています。Mistralモデルは現在Transformersで作成されています。
GPTQパラメータの説明
- ビット数: 量子化モデルのビットサイズ。
- GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。「None」は最小の値です。
- Act Order: TrueまたはFalse。
desc_act
とも呼ばれます。Trueの場合、量子化精度が向上します。一部のGPTQクライアントでは、Act Orderとグループサイズを併用したモデルに問題がありましたが、現在はほぼ解決しています。 - Damp %: 量子化のためにサンプルが処理される方法に影響を与えるGPTQパラメータ。デフォルトは0.01ですが、0.1の方がわずかに精度が向上します。
- GPTQデータセット: 量子化中に使用されるキャリブレーションデータセット。モデルの学習に適したデータセットを使用すると、量子化精度が向上します。なお、GPTQキャリブレーションデータセットはモデルの学習に使用されるデータセットとは異なります。学習データセットの詳細については、オリジナルのモデルリポジトリを参照してください。
- シーケンス長: 量子化に使用されるデータセットのシーケンスの長さ。理想的には、モデルのシーケンス長と同じです。一部の非常に長いシーケンスモデル(16K以上)では、より短いシーケンス長を使用する必要がある場合があります。なお、シーケンス長を短くすると、量子化モデルのシーケンス長が制限されるわけではありません。長い推論シーケンスでの量子化精度にのみ影響します。
- ExLlama互換性: このファイルがExLlamaでロードできるかどうか。現在、ExLlamaは4ビットのLlamaモデルのみをサポートしています。
ブランチ | ビット数 | GS | Act Order | Damp % | GPTQデータセット | シーケンス長 | サイズ | ExLlama | 説明 |
---|---|---|---|---|---|---|---|---|---|
main | 4 | 128 | Yes | 0.1 | wikitext | 4096 | 7.26 GB | Yes | 4ビット、Act Order付き、グループサイズ128g。64gよりもVRAMの使用量が少ないが、精度はわずかに低い。 |
gptq-4bit-32g-actorder_True | 4 | 32 | Yes | 0.1 | wikitext | 4096 | 8.00 GB | Yes | 4ビット、Act Order付き、グループサイズ32g。最高の推論品質を提供するが、VRAMの使用量が最大になる。 |
gptq-8bit--1g-actorder_True | 8 | None | Yes | 0.1 | wikitext | 4096 | 13.36 GB | No | 8ビット、Act Order付き。グループサイズなし、VRAM要件を低くする。 |
gptq-8bit-128g-actorder_True | 8 | 128 | Yes | 0.1 | wikitext | 4096 | 13.65 GB | No | 8ビット、グループサイズ128gで推論品質を向上させ、Act Orderでさらに精度を向上させる。 |
gptq-8bit-32g-actorder_True | 8 | 32 | Yes | 0.1 | wikitext | 4096 | 14.54 GB | No | 8ビット、グループサイズ32gとAct Orderで最大の推論品質を実現する。 |
gptq-4bit-64g-actorder_True | 4 | 64 | Yes | 0.1 | wikitext | 4096 | 7.51 GB | Yes | 4ビット、Act Order付き、グループサイズ64g。32gよりもVRAMの使用量が少ないが、精度はわずかに低い。 |
🔧 技術詳細
このモデルは、GPTQ量子化技術を用いて作成されています。GPTQは、モデルの量子化において高精度かつ高速な方法を提供します。
📄 ライセンス
ソースモデルの作成者は、そのライセンスを cc-by-nc-4.0
として公開しており、この量子化モデルも同じライセンスを使用しています。
このモデルはLlama 2をベースにしているため、Meta Llama 2のライセンス条項の対象となり、そのライセンスファイルも追加で含まれています。したがって、このモデルは両方のライセンスの下でライセンスされていると見なされるべきです。デュアルライセンスに関する明確化のためにHugging Faceに問い合わせましたが、まだ公式の立場はありません。この状況が変更された場合、またはMetaから何らかのフィードバックがあった場合、このセクションを適宜更新します。
その間、ライセンスに関する質問、特にこれら2つのライセンスがどのように相互作用するかについては、オリジナルのモデルリポジトリ IkariDev + Undi95のアテナ v4 に問い合わせてください。



