モデル概要
モデル特徴
モデル能力
使用事例
🚀 MythoMax L2 13B - GPTQ
このモデルは、GPTQ形式のMythoMax L2 13Bモデルファイルを提供します。複数のGPTQパラメータの組み合わせが用意されており、ハードウェアと要件に合わせて最適なものを選ぶことができます。
🚀 クイックスタート
このセクションでは、MythoMax L2 13B - GPTQモデルをすぐに使い始める方法を説明します。
利用可能なリポジトリ
- GPU推論用のAWQモデル
- 複数の量子化パラメータオプションを持つGPU推論用のGPTQモデル
- CPU+GPU推論用の2、3、4、5、6、および8ビットのGGUFモデル
- GPU推論およびさらなる変換用の、Grypheの元の量子化されていないfp16モデル(PyTorch形式)
モデルのダウンロード方法
text-generation-webuiを使用する場合
- モデルタブをクリックします。
- Download custom model or LoRAの下に、
TheBloke/MythoMax-L2-13B-GPTQ
を入力します。特定のブランチからダウンロードする場合は、例えばTheBloke/MythoMax-L2-13B-GPTQ:main
のように入力します。各オプションのブランチのリストは、「提供されるファイルとGPTQパラメータ」を参照してください。 - Downloadをクリックします。
- モデルのダウンロードが始まります。完了すると「Done」と表示されます。
- 左上のModelの横にある更新アイコンをクリックします。
- Modelのドロップダウンメニューから、先ほどダウンロードしたモデル
MythoMax-L2-13B-GPTQ
を選択します。 - モデルは自動的にロードされ、使用可能になります!
- カスタム設定が必要な場合は、設定を行ってから右上のSave settings for this modelをクリックし、続いてReload the Modelをクリックします。手動でGPTQパラメータを設定する必要はなく、
quantize_config.json
ファイルから自動的に設定されます。 - 準備ができたら、Text Generation tabをクリックし、プロンプトを入力して始めましょう!
Gitを使用する場合
git clone --single-branch --branch main https://huggingface.co/TheBloke/MythoMax-L2-13B-GPTQ
Python Transformersコードから使用する場合
ブランチはrevision
パラメータで指定します。以下のコード例を参照してください。
✨ 主な機能
- 複数のGPTQパラメータの組み合わせが用意されており、ハードウェアと要件に合わせて最適なものを選ぶことができます。
- 最新のAutoGPTQを使用して作成されたGPTQファイルを提供しています。
📦 インストール
PythonコードからこのGPTQモデルを使用する場合
必要なパッケージのインストール
Transformers 4.32.0以降、Optimum 1.12.0以降、およびAutoGPTQ 0.4.2以降が必要です。
pip3 install transformers>=4.32.0 optimum>=1.12.0
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/ # CUDA 11.7の場合はcu117を使用
AutoGPTQを事前構築済みのホイールを使用してインストールする際に問題がある場合は、ソースからインストールしてください。
pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
pip3 install .
CodeLlamaモデルの場合
Transformers 4.33.0以降を使用する必要があります。このドキュメントを読んでいる時点で4.33.0がまだリリースされていない場合は、ソースからTransformersをインストールする必要があります。
pip3 uninstall -y transformers
pip3 install git+https://github.com/huggingface/transformers.git
💻 使用例
基本的な使用法
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
model_name_or_path = "TheBloke/MythoMax-L2-13B-GPTQ"
# 異なるブランチを使用する場合は、revisionを変更します
# 例: revision="main"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto",
trust_remote_code=False,
revision="main")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
'''
print("\n\n*** Generate:")
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))
# Inference can also be done using transformers' pipeline
print("*** Pipeline:")
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
max_new_tokens=512,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1
)
print(pipe(prompt_template)[0]['generated_text'])
📚 ドキュメント
説明
このリポジトリには、GrypheのMythoMax L2 13BのGPTQモデルファイルが含まれています。複数のGPTQパラメータの組み合わせが提供されており、以下の「提供されるファイルとGPTQパラメータ」で各オプションの詳細、パラメータ、および作成に使用されたソフトウェアについて説明しています。
プロンプトテンプレート: カスタム
{system_message}
### Instruction:
{prompt}
(For roleplay purposes, I suggest the following - Write <CHAR NAME>'s next reply in a chat between <YOUR NAME> and <CHAR NAME>. Write a single reply only.)
### Response:
提供されるファイルとGPTQパラメータ
複数の量子化パラメータが提供されており、ハードウェアと要件に合わせて最適なものを選ぶことができます。各個別の量子化は異なるブランチにあります。異なるブランチから取得する方法については、以下を参照してください。
すべての最近のGPTQファイルはAutoGPTQで作成されており、main
ブランチ以外のすべてのファイルもAutoGPTQで作成されています。2023年8月より前にアップロードされたmain
ブランチのファイルは、GPTQ-for-LLaMaで作成されています。
GPTQパラメータの説明
- Bits: 量子化されたモデルのビットサイズ。
- GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。「None」は最小の値です。
- Act Order: TrueまたはFalse。
desc_act
とも呼ばれます。Trueの場合、より高い量子化精度が得られます。一部のGPTQクライアントでは、Act Orderとグループサイズを併用したモデルに問題がありましたが、現在は一般的に解決されています。 - Damp %: 量子化のためにサンプルが処理される方法に影響を与えるGPTQパラメータ。デフォルトは0.01ですが、0.1の方がわずかに精度が向上します。
- GPTQ dataset: 量子化に使用されるデータセット。モデルの学習に適したデータセットを使用すると、量子化精度を向上させることができます。ただし、GPTQデータセットはモデルの学習に使用されるデータセットとは異なります。学習データセットの詳細については、元のモデルリポジトリを参照してください。
- Sequence Length: 量子化に使用されるデータセットシーケンスの長さ。理想的には、モデルのシーケンス長と同じです。一部の非常に長いシーケンスモデル(16+K)では、より短いシーケンス長を使用する必要がある場合があります。ただし、短いシーケンス長は量子化されたモデルのシーケンス長を制限するものではなく、長い推論シーケンスでの量子化精度にのみ影響します。
- ExLlama Compatibility: このファイルがExLlamaでロードできるかどうか。現在、ExLlamaは4ビットのLlamaモデルと互換性があります。
ブランチ | Bits | GS | Act Order | Damp % | GPTQ Dataset | Seq Len | サイズ | ExLlama | 説明 |
---|---|---|---|---|---|---|---|---|---|
main | 4 | 128 | No | 0.1 | wikitext | 4096 | 7.26 GB | Yes | 4ビット、Act Orderなし、グループサイズ128g。 |
gptq-4bit-32g-actorder_True | 4 | 32 | Yes | 0.1 | wikitext | 4096 | 8.00 GB | Yes | 4ビット、Act Orderあり、グループサイズ32g。最大の推論品質を提供しますが、最大のVRAM使用量となります。 |
gptq-4bit-64g-actorder_True | 4 | 64 | Yes | 0.1 | wikitext | 4096 | 7.51 GB | Yes | 4ビット、Act Orderあり、グループサイズ64g。32gよりもVRAMの使用量が少ないですが、精度はわずかに低くなります。 |
gptq-4bit-128g-actorder_True | 4 | 128 | Yes | 0.1 | wikitext | 4096 | 7.26 GB | Yes | 4ビット、Act Orderあり、グループサイズ128g。64gよりもさらにVRAMの使用量が少ないですが、精度はわずかに低くなります。 |
gptq-8bit--1g-actorder_True | 8 | None | Yes | 0.1 | wikitext | 4096 | 13.36 GB | No | 8ビット、Act Orderあり。グループサイズなしで、VRAMの要件を低く抑えます。 |
gptq-8bit-128g-actorder_True | 8 | 128 | Yes | 0.1 | wikitext | 4096 | 13.65 GB | No | 8ビット、グループサイズ128gでより高い推論品質を提供し、Act Orderでさらに高い精度を実現します。 |
互換性
提供されるファイルは、Transformersを介して、またはAutoGPTQを直接使用して、AutoGPTQとの互換性がテストされています。Occ4m's GPTQ-for-LLaMa forkでも動作するはずです。
ExLlamaは4ビットのLlamaモデルと互換性があります。各ファイルの互換性については、上記の「提供されるファイルとGPTQパラメータ」の表を参照してください。
Huggingface Text Generation Inference (TGI)はすべてのGPTQモデルと互換性があります。
📄 ライセンス
ソースモデルの作成者は、ライセンスをother
としてリストしており、この量子化も同じライセンスを使用しています。
このモデルはLlama 2をベースにしているため、Meta Llama 2のライセンス条項の対象となり、そのライセンスファイルも追加で含まれています。したがって、このモデルは両方のライセンスの下でライセンスされていると見なされるべきです。私はHugging Faceに二重ライセンスについての明確化を依頼しましたが、まだ公式の立場がありません。これが変更された場合、またはMetaがこの状況について何らかのフィードバックを提供した場合、このセクションを適宜更新します。
同時に、ライセンスに関する質問、特にこれら2つのライセンスがどのように相互作用するかについては、元のモデルリポジトリであるGryphe's MythoMax L2 13Bに問い合わせてください。
Discord
これらのモデルやAI全般に関するさらなるサポートや議論に参加するには、以下のDiscordサーバーに参加してください。
謝辞と寄付方法
chirper.aiチームに感謝します!
gpus.llm-utils.orgのClayに感謝します!
多くの人から寄付の可否を尋ねられています。私はモデルを提供し、人々を助けることが好きであり、これにさらに多くの時間を費やし、微調整/トレーニングなどの新しいプロジェクトにも進出したいと思っています。
寄付いただける方は、AI/LLM/モデルに関するすべての質問やリクエストに対する優先サポート、プライベートDiscordルームへのアクセス、その他の特典を受けることができます。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特別な感謝: Aemon Algiz。
Patreonでの特別な言及: Alicia Loh, Stephen Murray, K, Ajan Kanaga, RoA, Magnesian, Deo Leter, Olakabola, Eugene Pentland, zynix, Deep Realms, Raymond Fosdick, Elijah Stavena, Iucharbius, Erik Bjäreholt, Luis Javier Navarrete Lozano, Nicholas, theTransient, John Detwiler, alfie_i, knownsqashed, Mano Prime, Willem Michiel, Enrico Ros, LangChain4j, OG, Michael Dempsey, Pierre Kircher, Pedro Madruga, James Bentley, Thomas Belote, Luke @flexchar, Leonard Tan, Johann-Peter Hartmann, Illia Dulskyi, Fen Risland, Chadd, S_X, Jeff Scroggin, Ken Nordquist, Sean Connelly, Artur Olbinski, Swaroop Kallakuri, Jack West, Ai Maven, David Ziegler, Russ Johnson, transmissions 11, John Villwock, Alps Aficionado, Clay Pascal, Viktor Bowallius, Subspace Studios, Rainer Wilmers, Trenton Dambrowitz, vamX, Michael Levine, 준교 김, Brandon Frisco, Kalila, Trailburnt, Randy H, Talal Aujan, Nathan Dryer, Vadim, 阿明, ReadyPlayerEmma, Tiffany J. Kim, George Stoitzev, Spencer Kim, Jerry Meng, Gabriel Tamborski, Cory Kujawski, Jeff



