モデル概要
モデル特徴
モデル能力
使用事例
🚀 Nethena 20B - GPTQ
Nethena 20B - GPTQは、NeverSleepによって作成されたNethena 20BモデルのGPTQ形式のモデルです。複数のGPTQパラメータのパーミュテーションが提供されており、ハードウェアと要件に合わせて最適なものを選択できます。
🚀 クイックスタート
このセクションでは、Nethena 20B - GPTQモデルの基本的な使い方を説明します。
✨ 主な機能
- 複数のGPTQパラメータのパーミュテーションが提供され、ハードウェアと要件に合わせて最適なものを選択できます。
- 複数の推論サーバー/ウェブUIで動作することが知られています。
📦 インストール
text-generation-webuiでのダウンロード
main
ブランチからダウンロードするには、「Download model」ボックスにTheBloke/Nethena-20B-GPTQ
を入力します。
他のブランチからダウンロードするには、ダウンロード名の末尾に:branchname
を追加します。例えば、TheBloke/Nethena-20B-GPTQ:gptq-4bit-128g-actorder_True
です。
コマンドラインからのダウンロード
huggingface-hub
Pythonライブラリを使用することをおすすめします。
pip3 install huggingface-hub
main
ブランチをNethena-20B-GPTQ
というフォルダにダウンロードするには、次のコマンドを実行します。
mkdir Nethena-20B-GPTQ
huggingface-cli download TheBloke/Nethena-20B-GPTQ --local-dir Nethena-20B-GPTQ --local-dir-use-symlinks False
別のブランチからダウンロードするには、--revision
パラメータを追加します。
mkdir Nethena-20B-GPTQ
huggingface-cli download TheBloke/Nethena-20B-GPTQ --revision gptq-4bit-128g-actorder_True --local-dir Nethena-20B-GPTQ --local-dir-use-symlinks False
git
を使用する場合(非推奨)
特定のブランチをgit
でクローンするには、次のようなコマンドを使用します。
git clone --single-branch --branch gptq-4bit-128g-actorder_True https://huggingface.co/TheBloke/Nethena-20B-GPTQ
💻 使用例
基本的な使用法
from huggingface_hub import InferenceClient
endpoint_url = "https://your-endpoint-url-here"
prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
'''
client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
max_new_tokens=128,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1)
print(f"Model output: {response}")
高度な使用法
# 高度な使用法の説明
# 例えば、特定のパラメータを調整して性能を最適化するなど
from huggingface_hub import InferenceClient
endpoint_url = "https://your-endpoint-url-here"
prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
'''
client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
max_new_tokens=256,
do_sample=True,
temperature=0.8,
top_p=0.9,
top_k=50,
repetition_penalty=1.2)
print(f"Model output: {response}")
📚 ドキュメント
説明
このリポジトリには、NeverSleepのNethena 20BのGPTQモデルファイルが含まれています。 複数のGPTQパラメータのパーミュテーションが提供されており、提供されているオプション、そのパラメータ、およびそれらを作成するために使用されたソフトウェアの詳細については、「Provided files, and GPTQ parameters」を参照してください。 これらのファイルは、Massed Computeによって提供されたハードウェアを使用して量子化されました。
利用可能なリポジトリ
- GPU推論用のAWQモデル
- 複数の量子化パラメータオプションを持つGPU推論用のGPTQモデル
- CPU+GPU推論用の2、3、4、5、6、および8ビットのGGUFモデル
- GPU推論およびさらなる変換用の、NeverSleepの元の非量子化fp16モデル(pytorch形式)
ライセンス
ソースモデルの作成者は、そのライセンスをcc-by-nc-4.0
としてリストしており、この量子化も同じライセンスを使用しています。
このモデルはLlama 2をベースにしているため、Meta Llama 2のライセンス条項の対象となり、そのライセンスファイルも追加で含まれています。したがって、これら2つのライセンスの下でライセンスされていると見なされるべきです。二重ライセンスに関する明確化のためにHugging Faceに問い合わせましたが、まだ公式の立場はありません。これが変更された場合、またはMetaがこの状況に関するフィードバックを提供した場合、このセクションを適宜更新します。
その間、ライセンスに関する質問、特にこれら2つのライセンスがどのように相互作用するかについては、元のモデルリポジトリ:NeverSleepのNethena 20Bに問い合わせてください。
互換性のあるクライアント/サーバー
これらのGPTQモデルは、以下の推論サーバー/ウェブUIで動作することが知られています。
- text-generation-webui
- KobaldAI United
- LoLLMS Web UI
- Hugging Face Text Generation Inference (TGI) これは完全なリストではない可能性があります。他のものを知っている場合は、教えてください!
提供されるファイルとGPTQパラメータ
複数の量子化パラメータが提供されており、ハードウェアと要件に最適なものを選択できます。 各個別の量子化は異なるブランチにあります。異なるブランチから取得する方法については、以下を参照してください。 ほとんどのGPTQファイルはAutoGPTQで作成されています。Mistralモデルは現在、Transformersで作成されています。
GPTQパラメータの説明
- Bits: 量子化されたモデルのビットサイズ。
- GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。「None」は最小の値です。
- Act Order: TrueまたはFalse。
desc_act
とも呼ばれます。Trueの場合、量子化精度が向上します。一部のGPTQクライアントでは、Act OrderとGroup Sizeを使用するモデルに問題がありましたが、現在は一般的に解決されています。 - Damp %: 量子化のためにサンプルが処理される方法に影響を与えるGPTQパラメータ。デフォルトは0.01ですが、0.1の方がわずかに精度が向上します。
- GPTQ dataset: 量子化中に使用されるキャリブレーションデータセット。モデルのトレーニングに適したデータセットを使用すると、量子化精度を向上させることができます。GPTQキャリブレーションデータセットは、モデルのトレーニングに使用されるデータセットとは異なることに注意してください。トレーニングデータセットの詳細については、元のモデルリポジトリを参照してください。
- Sequence Length: 量子化に使用されるデータセットシーケンスの長さ。理想的には、モデルのシーケンス長と同じです。一部の非常に長いシーケンスモデル(16+K)では、より短いシーケンス長を使用する必要がある場合があります。ただし、短いシーケンス長は、量子化されたモデルのシーケンス長を制限するものではありません。長い推論シーケンスでの量子化精度にのみ影響します。
- ExLlama Compatibility: このファイルがExLlamaでロードできるかどうか。現在、ExLlamaは4ビットのLlamaおよびMistralモデルのみをサポートしています。
ブランチ | ビット | GS | Act Order | Damp % | GPTQデータセット | Seq Len | サイズ | ExLlama | 説明 |
---|---|---|---|---|---|---|---|---|---|
main | 4 | None | Yes | 0.1 | wikitext | 4096 | 10.52 GB | Yes | 4ビット、Act Orderあり。グループサイズなし、VRAM要件を低減します。 |
gptq-4bit-128g-actorder_True | 4 | 128 | Yes | 0.1 | wikitext | 4096 | 10.89 GB | Yes | 4ビット、Act Orderとグループサイズ128gあり。64gよりもVRAMの使用量が少なくなりますが、精度はわずかに低下します。 |
gptq-4bit-32g-actorder_True | 4 | 32 | Yes | 0.1 | wikitext | 4096 | 12.04 GB | Yes | 4ビット、Act Orderとグループサイズ32gあり。最大の推論品質を提供しますが、VRAMの使用量が最大になります。 |
gptq-3bit-128g-actorder_True | 3 | 128 | Yes | 0.1 | wikitext | 4096 | 8.41 GB | No | 3ビット、グループサイズ128gとact-orderあり。128g-Falseよりも品質が高いです。 |
gptq-8bit--1g-actorder_True | 8 | None | Yes | 0.1 | wikitext | 4096 | 20.35 GB | No | 8ビット、Act Orderあり。グループサイズなし、VRAM要件を低減します。 |
gptq-3bit-32g-actorder_True | 3 | 32 | Yes | 0.1 | wikitext | 4096 | 9.51 GB | No | 3ビット、グループサイズ64gとact-orderあり。最高品質の3ビットオプションです。 |
gptq-8bit-128g-actorder_True | 8 | 128 | Yes | 0.1 | wikitext | 4096 | 20.80 GB | No | 8ビット、グループサイズ128gで推論品質が向上し、Act Orderでさらに精度が向上します。 |
text-generation-webuiでの使用方法
text-generation-webuiの最新バージョンを使用していることを確認してください。 手動インストール方法を熟知していない限り、text-generation-webuiのワンクリックインストーラーを使用することを強くおすすめします。
- Modelタブをクリックします。
- Download custom model or LoRAの下に、
TheBloke/Nethena-20B-GPTQ
を入力します。- 特定のブランチからダウンロードするには、例えば
TheBloke/Nethena-20B-GPTQ:gptq-4bit-128g-actorder_True
を入力します。 - 各オプションのブランチのリストについては、「Provided files, and GPTQ parameters」を参照してください。
- 特定のブランチからダウンロードするには、例えば
- Downloadをクリックします。
- モデルのダウンロードが完了すると、「Done」と表示されます。
- 左上のModelの横にある更新アイコンをクリックします。
- Modelのドロップダウンメニューから、先ほどダウンロードしたモデル
Nethena-20B-GPTQ
を選択します。 - モデルは自動的にロードされ、使用可能になります!
- カスタム設定が必要な場合は、設定してから右上のSave settings for this modelをクリックし、続いてReload the Modelをクリックします。
- 手動でGPTQパラメータを設定する必要はなく、しかも設定しないでください。これらは
quantize_config.json
ファイルから自動的に設定されます。
- 手動でGPTQパラメータを設定する必要はなく、しかも設定しないでください。これらは
- 準備ができたら、Text Generationタブをクリックし、プロンプトを入力して開始します!
Text Generation Inference (TGI)からのモデルの提供
TGIバージョン1.1.0以降を使用することをおすすめします。公式のDockerコンテナはghcr.io/huggingface/text-generation-inference:1.1.0
です。
例のDockerパラメータは次の通りです。
--model-id TheBloke/Nethena-20B-GPTQ --port 3000 --quantize gptq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096
TGIとのインターフェース用の例のPythonコード(huggingface-hub 0.17.0以降が必要)は次の通りです。
pip3 install huggingface-hub
from huggingface_hub import InferenceClient
endpoint_url = "https://your-endpoint-url-here"
prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
'''
client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
max_new_tokens=128,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1)
print(f"Model output: {response}")
🔧 技術詳細
このモデルは、GPTQ形式で量子化されています。GPTQは、大規模言語モデルを低ビット表現に量子化するための手法であり、VRAMの使用量を大幅に削減することができます。 量子化に使用されたデータセットはwikitextであり、これにより量子化精度が向上します。 また、複数の量子化パラメータのパーミュテーションが提供されており、ハードウェアと要件に合わせて最適なものを選択できます。
📄 ライセンス
このモデルはcc-by-nc-4.0
ライセンスの下で提供されています。また、Llama 2をベースにしているため、Meta Llama 2のライセンス条項の対象となります。
ライセンスに関する詳細な質問、特にこれら2つのライセンスがどのように相互作用するかについては、元のモデルリポジトリ:NeverSleepのNethena 20Bに問い合わせてください。
属性 | 详情 |
---|---|
模型类型 | Llama |
训练数据 | 詳細は元のモデルリポジトリを参照してください。 |



