モデル概要
モデル特徴
モデル能力
使用事例
🚀 Loyal Macaroni Maid 7B - GPTQ
このモデルは、Sanji Watsuki氏によって作成されたLoyal Macaroni Maid 7BのGPTQ形式のモデルファイルを提供します。複数のGPTQパラメータの組み合わせが用意されており、ハードウェアと要件に合わせて最適なものを選択できます。

TheBlokeのLLM関連の作業は、andreessen horowitz (a16z)からの助成金によって支援されています。
🚀 クイックスタート
- モデル作成者: Sanji Watsuki
- オリジナルモデル: Loyal Macaroni Maid 7B
✨ 主な機能
このリポジトリには、Sanji Watsuki氏のLoyal Macaroni Maid 7BのGPTQモデルファイルが含まれています。複数のGPTQパラメータの組み合わせが提供されており、以下の「提供されているファイル」で各オプションの詳細、パラメータ、および作成に使用されたソフトウェアについて説明しています。これらのファイルは、Massed Computeによって提供されたハードウェアを使用して量子化されています。
📦 利用可能なリポジトリ
- GPU推論用のAWQモデル
- 複数の量子化パラメータオプションを持つGPU推論用のGPTQモデル
- CPU+GPU推論用の2、3、4、5、6、および8ビットのGGUFモデル
- GPU推論およびさらなる変換用の、Sanji Watsuki氏の元の量子化されていないfp16形式のモデル
💻 プロンプトテンプレート: Alpaca
以下はタスクを説明する指示です。要求を適切に完了する応答を書いてください。
### 指示:
{prompt}
### 応答:
📚 互換性のあるクライアント/サーバー
GPTQモデルは現在、Linux (NVidia/AMD) とWindows (NVidiaのみ) でサポートされています。macOSユーザーは、GGUFモデルを使用してください。
これらのGPTQモデルは、以下の推論サーバー/ウェブUIで動作することが確認されています。
これは完全なリストではない可能性があります。他に互換性のあるものを知っている場合は、教えてください!
🔧 提供されているファイルとGPTQパラメータ
複数の量子化パラメータが提供されており、ハードウェアと要件に合わせて最適なものを選択できます。
各量子化は異なるブランチにあります。異なるブランチから取得する方法については、以下を参照してください。
ほとんどのGPTQファイルはAutoGPTQで作成されています。Mistralモデルは現在、Transformersで作成されています。
GPTQパラメータの説明
- ビット数: 量子化されたモデルのビットサイズ。
- GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。「None」は最小の値です。
- Act Order: 真または偽。
desc_act
とも呼ばれます。真の場合、量子化精度が向上します。一部のGPTQクライアントでは、Act Orderとグループサイズを使用するモデルに問題がありましたが、現在はほぼ解決されています。 - Damp %: 量子化のためにサンプルが処理される方法に影響を与えるGPTQパラメータ。デフォルトは0.01ですが、0.1の方がわずかに精度が良くなります。
- GPTQデータセット: 量子化中に使用されるキャリブレーションデータセット。モデルのトレーニングに適したデータセットを使用すると、量子化精度を向上させることができます。なお、GPTQキャリブレーションデータセットは、モデルのトレーニングに使用されるデータセットとは異なります。トレーニングデータセットの詳細については、元のモデルリポジトリを参照してください。
- シーケンス長: 量子化に使用されるデータセットシーケンスの長さ。理想的には、モデルのシーケンス長と同じです。一部の非常に長いシーケンスモデル (16K以上) では、より短いシーケンス長を使用する必要がある場合があります。ただし、シーケンス長を短くすると、量子化されたモデルのシーケンス長が制限されるわけではありません。長い推論シーケンスでの量子化精度にのみ影響します。
- ExLlama互換性: このファイルがExLlamaでロードできるかどうか。現在、ExLlamaは4ビットのLlamaおよびMistralモデルのみをサポートしています。
ブランチ | ビット数 | GS | Act Order | Damp % | GPTQデータセット | シーケンス長 | サイズ | ExLlama | 説明 |
---|---|---|---|---|---|---|---|---|---|
main | 4 | 128 | はい | 0.1 | OpenErotica Erotiquant | 4096 | 4.16 GB | はい | 4ビット、Act Orderあり、グループサイズ128g。64gよりもVRAMの使用量が少ないが、精度はわずかに低い。 |
gptq-4bit-32g-actorder_True | 4 | 32 | はい | 0.1 | OpenErotica Erotiquant | 4096 | 4.57 GB | はい | 4ビット、Act Orderあり、グループサイズ32g。可能な限り高い推論品質を提供するが、VRAMの使用量が最大となる。 |
gptq-8bit--1g-actorder_True | 8 | なし | はい | 0.1 | OpenErotica Erotiquant | 4096 | 7.52 GB | いいえ | 8ビット、Act Orderあり。グループサイズなし、VRAM要件を低くする。 |
gptq-8bit-128g-actorder_True | 8 | 128 | はい | 0.1 | OpenErotica Erotiquant | 4096 | 7.68 GB | いいえ | 8ビット、グループサイズ128gで推論品質が高く、Act Orderでさらに精度が高い。 |
gptq-8bit-32g-actorder_True | 8 | 32 | はい | 0.1 | OpenErotica Erotiquant | 4096 | 8.17 GB | いいえ | 8ビット、グループサイズ32gとAct Orderで最大の推論品質を提供する。 |
gptq-4bit-64g-actorder_True | 4 | 64 | はい | 0.1 | OpenErotica Erotiquant | 4096 | 4.29 GB | はい | 4ビット、Act Orderあり、グループサイズ64g。32gよりもVRAMの使用量が少ないが、精度はわずかに低い。 |
🔧 ダウンロード方法(ブランチからのダウンロードを含む)
text-generation-webuiでのダウンロード
main
ブランチからダウンロードするには、「モデルをダウンロード」ボックスにTheBloke/Loyal-Macaroni-Maid-7B-GPTQ
を入力します。
別のブランチからダウンロードするには、ダウンロード名の末尾に:branchname
を追加します。例えば、TheBloke/Loyal-Macaroni-Maid-7B-GPTQ:gptq-4bit-32g-actorder_True
のように入力します。
コマンドラインからのダウンロード
huggingface-hub
Pythonライブラリを使用することをお勧めします。
pip3 install huggingface-hub
main
ブランチをLoyal-Macaroni-Maid-7B-GPTQ
というフォルダにダウンロードするには、次のコマンドを実行します。
mkdir Loyal-Macaroni-Maid-7B-GPTQ
huggingface-cli download TheBloke/Loyal-Macaroni-Maid-7B-GPTQ --local-dir Loyal-Macaroni-Maid-7B-GPTQ --local-dir-use-symlinks False
別のブランチからダウンロードするには、--revision
パラメータを追加します。
mkdir Loyal-Macaroni-Maid-7B-GPTQ
huggingface-cli download TheBloke/Loyal-Macaroni-Maid-7B-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir Loyal-Macaroni-Maid-7B-GPTQ --local-dir-use-symlinks False
huggingface-cliダウンロードの高度な使用方法
--local-dir-use-symlinks False
パラメータを削除すると、ファイルは代わりに中央のHugging Faceキャッシュディレクトリ(Linuxのデフォルトの場所は~/.cache/huggingface
)に保存され、指定された--local-dir
にシンボリックリンクが追加され、キャッシュ内の実際の場所を指します。これにより、中断されたダウンロードを再開でき、ディスク上の複数の場所にリポジトリをすばやくクローンでき、再ダウンロードをトリガーすることなく済みます。ただし、欠点として、ファイルがキャッシュフォルダに隠されるため、ディスクスペースの使用状況がわかりにくくなり、ダウンロードしたモデルを削除したい場合にクリーンアップが難しくなります。
キャッシュの場所は、HF_HOME
環境変数および/またはhuggingface-cli
の--cache-dir
パラメータで変更できます。
huggingface-cli
でのダウンロードに関する詳細なドキュメントについては、HF -> Hub Python Library -> Download files -> Download from the CLIを参照してください。
高速接続(1Gbit/s以上)でのダウンロードを高速化するには、hf_transfer
をインストールします。
pip3 install hf_transfer
そして、環境変数HF_HUB_ENABLE_HF_TRANSFER
を1
に設定します。
mkdir Loyal-Macaroni-Maid-7B-GPTQ
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Loyal-Macaroni-Maid-7B-GPTQ --local-dir Loyal-Macaroni-Maid-7B-GPTQ --local-dir-use-symlinks False
Windowsコマンドラインユーザーは、ダウンロードコマンドの前にset HF_HUB_ENABLE_HF_TRANSFER=1
を実行して環境変数を設定できます。
git
を使用する方法(推奨しません)
特定のブランチをgit
でクローンするには、次のようなコマンドを使用します。
git clone --single-branch --branch gptq-4bit-32g-actorder_True https://huggingface.co/TheBloke/Loyal-Macaroni-Maid-7B-GPTQ
なお、HFリポジトリでgit
を使用することは強く推奨されません。huggingface-hub
を使用するよりもはるかに遅く、モデルファイルを2回保存する必要があるため、ディスクスペースの使用量が2倍になります(意図したターゲットフォルダと.git
フォルダの両方に保存されます)。
🔧 text-generation-webuiでこのモデルを簡単にダウンロードして使用する方法
text-generation-webuiの最新バージョンを使用していることを確認してください。
手動インストール方法をよく理解していない限り、text-generation-webuiのワンクリックインストーラーを使用することを強くお勧めします。
- モデルタブをクリックします。
- カスタムモデルまたはLoRAをダウンロードの下に、
TheBloke/Loyal-Macaroni-Maid-7B-GPTQ
を入力します。- 特定のブランチからダウンロードするには、例えば
TheBloke/Loyal-Macaroni-Maid-7B-GPTQ:gptq-4bit-32g-actorder_True
のように入力します。 - 各オプションのブランチのリストについては、上記の「提供されているファイル」を参照してください。
- 特定のブランチからダウンロードするには、例えば
- ダウンロードをクリックします。
- モデルのダウンロードが開始されます。完了すると「完了」と表示されます。
- 左上のモデルの横にある更新アイコンをクリックします。
- モデルのドロップダウンメニューで、先ほどダウンロードしたモデル
Loyal-Macaroni-Maid-7B-GPTQ
を選択します。 - モデルが自動的にロードされ、使用可能な状態になります!
- カスタム設定が必要な場合は、設定を行ってから右上のこのモデルの設定を保存をクリックし、続いてモデルを再読み込みをクリックします。
- 手動でGPTQパラメータを設定する必要はなく、しないでください。これらは
quantize_config.json
ファイルから自動的に設定されます。
- 手動でGPTQパラメータを設定する必要はなく、しないでください。これらは
- 準備ができたら、テキスト生成タブをクリックし、プロンプトを入力して開始します!
🔧 Text Generation Inference (TGI) からこのモデルを提供する方法
TGIバージョン1.1.0以降を使用することを推奨します。公式のDockerコンテナはghcr.io/huggingface/text-generation-inference:1.1.0
です。
例のDockerパラメータは次の通りです。
--model-id TheBloke/Loyal-Macaroni-Maid-7B-GPTQ --port 3000 --quantize gptq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096
TGIとやり取りするための例のPythonコード(huggingface-hub 0.17.0以降が必要)は次の通りです。
pip3 install huggingface-hub
from huggingface_hub import InferenceClient
endpoint_url = "https://your-endpoint-url-here"
prompt = "Tell me about AI"
prompt_template=f'''以下はタスクを説明する指示です。要求を適切に完了する応答を書いてください。
### 指示:
{prompt}
### 応答:
'''
client = InferenceClient(endpoint_url)
response = client.text_generation(
prompt_template,
max_new_tokens=128,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1
)
print(f"モデルの出力: {response}")
💻 Pythonコードの例: このGPTQモデルからの推論
必要なパッケージのインストール
Transformers 4.33.0以降、Optimum 1.12.0以降、およびAutoGPTQ 0.4.2以降が必要です。
pip3 install --upgrade transformers optimum
# PyTorch 2.1 + CUDA 12.xを使用する場合:
pip3 install --upgrade auto-gptq
# または、PyTorch 2.1 + CUDA 11.xを使用する場合:
pip3 install --upgrade auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/
PyTorch 2.0を使用している場合は、AutoGPTQをソースからインストールする必要があります。同様に、事前構築されたホイールに問題がある場合は、ソースからビルドすることを試してください。
pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.5.1
pip3 install .
例のPythonコード
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
model_name_or_path = "TheBloke/Loyal-Macaroni-Maid-7B-GPTQ"
# 別のブランチを使用する場合は、revisionを変更します
# 例: revision="gptq-4bit-32g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto",
trust_remote_code=False,
revision="main")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
prompt = "Write a story about llamas"
system_message = "You are a story writing assistant"
prompt_template=f'''以下はタスクを説明する指示です。要求を適切に完了する応答を書いてください。
### 指示:
{prompt}
### 応答:
'''
print("\n\n*** 生成:")
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))
# 推論は、transformersのpipelineを使用しても行えます
print("*** パイプライン:")
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
max_new_tokens=512,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1
)
print(pipe(prompt_template)[0]['generated_text'])
🔧 互換性
提供されているファイルは、Transformersで動作することがテストされています。非Mistralモデルの場合は、AutoGPTQを直接使用することもできます。
ExLlamaは、4ビットのLlamaアーキテクチャモデル(Mistral、Yi、DeepSeek、SOLARなどを含む)と互換性があります。各ファイルの互換性については、上記の「提供されているファイル」の表を参照してください。
クライアント/サーバーのリストについては、上記の「互換性のあるクライアント/サーバー」を参照してください。
📄 Discord
これらのモデルやAI全般に関するさらなるサポートや議論に参加するには、以下のDiscordサーバーに参加してください。 TheBloke AIのDiscordサーバー
📄 感謝と貢献方法
chirper.aiチームに感謝します! gpus.llm-utils.orgのClayに感謝します!
多くの人から貢献できるかどうかを尋ねられました。私はモデルを提供し、人々を助けることが好きで、それにもっと時間を費やし、微調整/トレーニングなどの新しいプロジェクトにも進出できるようになりたいと思っています。
貢献できる方がいれば、大変感謝していただけます。これにより、より多くのモデルを提供し、新しいAIプロジェクトの作業を開始することができます。
寄付者は、すべてのAI/LLM/モデルに関する質問や要求に対する優先サポート、プライベートDiscordルームへのアクセス、およびその他の特典を受けることができます。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特別な感謝: Aemon Algiz。 Patreonでの特別な言及: Michael Levine, 阿明, Trailburnt, Nikolai Manek, John Detwiler, Randy H, Will Dee, Sebastain Graf, NimbleBox.ai, Eugene Pentland, Emad Mostaque, Ai Maven, Jim Angel, Jeff Scroggin, Michael Davis, Manuel Alberto Morcote, Stephen Murray, Robert, Justin Joy, Luke @flexchar, Brandon Frisco, Elijah Stavena, S_X, Dan Guido, Undi ., Komninos Chatzipapas, Shadi, theTransient, Lone Striker, Raven Klaugh, jjj, Cap'n Zoog, Michel-Marie MAUDET (LINAGORA), Matthew Berman, David, Fen Risland, Omer Bin Jawed, Luke Pendergrass, Kalila, OG, Erik Bjäreholt, Rooh Singh, Joseph William Delisle, Dan Lewis, TL, John Villwock, AzureBlack, Brad, Pedro Madruga, Caitlyn Gatomon, K, jinyuan sun, Mano Prime, Alex, Jeffrey Morgan, Alicia Loh, Illia Dulskyi, Chadd, transmissions 11, fincy, Rainer Wilmers, ReadyPlayerEmma, knownsqashed, Mandus, biorpg, Deo Leter, Brandon Phillips, SuperWojo, Sean Connelly, Iucharbius, Jack West, Harry Royden McLaughlin, Nicholas, terasurfer, Vitor Caleffi, Duane Dunston, Johann-Peter Hartmann, David Ziegler, Olakabola, Ken Nordquist, Trenton Dambrowitz, Tom X Nguyen, Vadim, Ajan Kanaga, Leonard Tan, Clay Pascal, Alexandros Triantafyllidis, JM33133, Xule, vamX, ya boyyy, subjectnull, Talal Aujan, Alps Aficionado, wassieverse, Ari Malik, James Bentley, Woland, Spencer Kim, Michael Dempsey, Fred von Graf, Elle, zynix, William Richards, Stanislav Ovsiannikov, Edmond Seymore, Jonathan Leane, Martin Kemka, usrbinkat, Enrico Ros
すべての寛大なパトロンと寄付者に感謝します! そして、a16zの寛大な助成金に再度感謝します!
📄 オリジナルのモデルカード: Sanji WatsukiのLoyal Macaroni Maid 7B
説明
このリポジトリには、Loyal-Macaroni-Maid-7Bの量子化されたGGUFファイルがあります。これは7Bモデルで、登場人物カードに忠実な魅力的なロールプレイングを行うことを目的としています。



