Loyal-Macaroni-Maid-7B-GPTQオープンソースモデル - ロールプレイをサポートし、キャラクターカードの設定に基づいて対話する

ホーム

Loyal Macaroni Maid 7B GPTQ

TheBlokeによって開発

これはMistralアーキテクチャに基づく7Bパラメータのモデルで、ロールプレイングタスクに特化しており、キャラクターカードの設定に従ったインタラクションを行うように特別に設計されています。

大規模言語モデル

Transformers

#ロールプレイング専用 #NSFWコンテンツ対応 #低リソースでのデプロイ

ダウンロード数 247

リリース時間 : 12/24/2023

モデル概要

本プロジェクトでは、Sanji Watsukiの忠誠通心粉メイド7BモデルのGPTQ量子化バージョンを提供しており、効率的な推論タスクに使用でき、さまざまなハードウェアで柔軟にデプロイできます。

モデル特徴

効率的な量子化

複数のGPTQ量子化パラメータオプションを提供し、ハードウェアとニーズに応じて最適な量子化モデルを選択できます。

多プラットフォーム互換性

text-generation-webui、KoboldAI Unitedなど、複数の推論サーバーとWeb UIをサポートしています。

ロールプレイングの最適化

キャラクターカードの設定に従ったインタラクションを行うように特別に設計されており、没入型のロールプレイング体験を提供します。

モデル能力

テキスト生成

ロールプレイング

指令追従

使用事例

エンターテインメント

ロールプレイングインタラクション

モデルとロールプレイング対話を行い、さまざまな仮想キャラクターとのインタラクションを体験します。

没入型のロールプレイング体験を提供します。

クリエイティブライティング

ストーリー生成

プロンプトに基づいて一貫したストーリー内容を生成します。

作家の創作障壁を克服するのに役立ちます。

🚀 Loyal Macaroni Maid 7B - GPTQ

このモデルは、Sanji Watsuki氏によって作成されたLoyal Macaroni Maid 7BのGPTQ形式のモデルファイルを提供します。複数のGPTQパラメータの組み合わせが用意されており、ハードウェアと要件に合わせて最適なものを選択できます。

チャットとサポート: TheBlokeのDiscordサーバー

貢献したい方はこちら: TheBlokeのPatreonページ

TheBlokeのLLM関連の作業は、andreessen horowitz (a16z)からの助成金によって支援されています。

🚀 クイックスタート

モデル作成者: Sanji Watsuki
オリジナルモデル: Loyal Macaroni Maid 7B

✨ 主な機能

このリポジトリには、Sanji Watsuki氏のLoyal Macaroni Maid 7BのGPTQモデルファイルが含まれています。複数のGPTQパラメータの組み合わせが提供されており、以下の「提供されているファイル」で各オプションの詳細、パラメータ、および作成に使用されたソフトウェアについて説明しています。これらのファイルは、Massed Computeによって提供されたハードウェアを使用して量子化されています。

📦 利用可能なリポジトリ

💻 プロンプトテンプレート: Alpaca

以下はタスクを説明する指示です。要求を適切に完了する応答を書いてください。

### 指示:
{prompt}

### 応答:

📚 互換性のあるクライアント/サーバー

GPTQモデルは現在、Linux (NVidia/AMD) とWindows (NVidiaのみ) でサポートされています。macOSユーザーは、GGUFモデルを使用してください。

これらのGPTQモデルは、以下の推論サーバー/ウェブUIで動作することが確認されています。

これは完全なリストではない可能性があります。他に互換性のあるものを知っている場合は、教えてください！

🔧 提供されているファイルとGPTQパラメータ

複数の量子化パラメータが提供されており、ハードウェアと要件に合わせて最適なものを選択できます。

各量子化は異なるブランチにあります。異なるブランチから取得する方法については、以下を参照してください。

ほとんどのGPTQファイルはAutoGPTQで作成されています。Mistralモデルは現在、Transformersで作成されています。

GPTQパラメータの説明

ビット数: 量子化されたモデルのビットサイズ。
GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。「None」は最小の値です。
Act Order: 真または偽。desc_actとも呼ばれます。真の場合、量子化精度が向上します。一部のGPTQクライアントでは、Act Orderとグループサイズを使用するモデルに問題がありましたが、現在はほぼ解決されています。
Damp %: 量子化のためにサンプルが処理される方法に影響を与えるGPTQパラメータ。デフォルトは0.01ですが、0.1の方がわずかに精度が良くなります。
GPTQデータセット: 量子化中に使用されるキャリブレーションデータセット。モデルのトレーニングに適したデータセットを使用すると、量子化精度を向上させることができます。なお、GPTQキャリブレーションデータセットは、モデルのトレーニングに使用されるデータセットとは異なります。トレーニングデータセットの詳細については、元のモデルリポジトリを参照してください。
シーケンス長: 量子化に使用されるデータセットシーケンスの長さ。理想的には、モデルのシーケンス長と同じです。一部の非常に長いシーケンスモデル (16K以上) では、より短いシーケンス長を使用する必要がある場合があります。ただし、シーケンス長を短くすると、量子化されたモデルのシーケンス長が制限されるわけではありません。長い推論シーケンスでの量子化精度にのみ影響します。
ExLlama互換性: このファイルがExLlamaでロードできるかどうか。現在、ExLlamaは4ビットのLlamaおよびMistralモデルのみをサポートしています。

ブランチ	ビット数	GS	Act Order	Damp %	GPTQデータセット	シーケンス長	サイズ	ExLlama	説明
main	4	128	はい	0.1	OpenErotica Erotiquant	4096	4.16 GB	はい	4ビット、Act Orderあり、グループサイズ128g。64gよりもVRAMの使用量が少ないが、精度はわずかに低い。
gptq-4bit-32g-actorder_True	4	32	はい	0.1	OpenErotica Erotiquant	4096	4.57 GB	はい	4ビット、Act Orderあり、グループサイズ32g。可能な限り高い推論品質を提供するが、VRAMの使用量が最大となる。
gptq-8bit--1g-actorder_True	8	なし	はい	0.1	OpenErotica Erotiquant	4096	7.52 GB	いいえ	8ビット、Act Orderあり。グループサイズなし、VRAM要件を低くする。
gptq-8bit-128g-actorder_True	8	128	はい	0.1	OpenErotica Erotiquant	4096	7.68 GB	いいえ	8ビット、グループサイズ128gで推論品質が高く、Act Orderでさらに精度が高い。
gptq-8bit-32g-actorder_True	8	32	はい	0.1	OpenErotica Erotiquant	4096	8.17 GB	いいえ	8ビット、グループサイズ32gとAct Orderで最大の推論品質を提供する。
gptq-4bit-64g-actorder_True	4	64	はい	0.1	OpenErotica Erotiquant	4096	4.29 GB	はい	4ビット、Act Orderあり、グループサイズ64g。32gよりもVRAMの使用量が少ないが、精度はわずかに低い。

🔧 ダウンロード方法（ブランチからのダウンロードを含む）

text-generation-webuiでのダウンロード

mainブランチからダウンロードするには、「モデルをダウンロード」ボックスにTheBloke/Loyal-Macaroni-Maid-7B-GPTQを入力します。

別のブランチからダウンロードするには、ダウンロード名の末尾に:branchnameを追加します。例えば、TheBloke/Loyal-Macaroni-Maid-7B-GPTQ:gptq-4bit-32g-actorder_Trueのように入力します。

コマンドラインからのダウンロード

huggingface-hubPythonライブラリを使用することをお勧めします。

pip3 install huggingface-hub

mainブランチをLoyal-Macaroni-Maid-7B-GPTQというフォルダにダウンロードするには、次のコマンドを実行します。

mkdir Loyal-Macaroni-Maid-7B-GPTQ
huggingface-cli download TheBloke/Loyal-Macaroni-Maid-7B-GPTQ --local-dir Loyal-Macaroni-Maid-7B-GPTQ --local-dir-use-symlinks False

別のブランチからダウンロードするには、--revisionパラメータを追加します。

mkdir Loyal-Macaroni-Maid-7B-GPTQ
huggingface-cli download TheBloke/Loyal-Macaroni-Maid-7B-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir Loyal-Macaroni-Maid-7B-GPTQ --local-dir-use-symlinks False

huggingface-cliダウンロードの高度な使用方法

--local-dir-use-symlinks Falseパラメータを削除すると、ファイルは代わりに中央のHugging Faceキャッシュディレクトリ（Linuxのデフォルトの場所は~/.cache/huggingface）に保存され、指定された--local-dirにシンボリックリンクが追加され、キャッシュ内の実際の場所を指します。これにより、中断されたダウンロードを再開でき、ディスク上の複数の場所にリポジトリをすばやくクローンでき、再ダウンロードをトリガーすることなく済みます。ただし、欠点として、ファイルがキャッシュフォルダに隠されるため、ディスクスペースの使用状況がわかりにくくなり、ダウンロードしたモデルを削除したい場合にクリーンアップが難しくなります。

キャッシュの場所は、HF_HOME環境変数および/またはhuggingface-cliの--cache-dirパラメータで変更できます。

huggingface-cliでのダウンロードに関する詳細なドキュメントについては、HF -> Hub Python Library -> Download files -> Download from the CLIを参照してください。

高速接続（1Gbit/s以上）でのダウンロードを高速化するには、hf_transferをインストールします。

pip3 install hf_transfer

そして、環境変数HF_HUB_ENABLE_HF_TRANSFERを1に設定します。

mkdir Loyal-Macaroni-Maid-7B-GPTQ
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Loyal-Macaroni-Maid-7B-GPTQ --local-dir Loyal-Macaroni-Maid-7B-GPTQ --local-dir-use-symlinks False

Windowsコマンドラインユーザーは、ダウンロードコマンドの前にset HF_HUB_ENABLE_HF_TRANSFER=1を実行して環境変数を設定できます。

`git`を使用する方法（推奨しません）

特定のブランチをgitでクローンするには、次のようなコマンドを使用します。

git clone --single-branch --branch gptq-4bit-32g-actorder_True https://huggingface.co/TheBloke/Loyal-Macaroni-Maid-7B-GPTQ

なお、HFリポジトリでgitを使用することは強く推奨されません。huggingface-hubを使用するよりもはるかに遅く、モデルファイルを2回保存する必要があるため、ディスクスペースの使用量が2倍になります（意図したターゲットフォルダと.gitフォルダの両方に保存されます）。

🔧 text-generation-webuiでこのモデルを簡単にダウンロードして使用する方法

text-generation-webuiの最新バージョンを使用していることを確認してください。

手動インストール方法をよく理解していない限り、text-generation-webuiのワンクリックインストーラーを使用することを強くお勧めします。

モデルタブをクリックします。
カスタムモデルまたはLoRAをダウンロードの下に、TheBloke/Loyal-Macaroni-Maid-7B-GPTQを入力します。
- 特定のブランチからダウンロードするには、例えばTheBloke/Loyal-Macaroni-Maid-7B-GPTQ:gptq-4bit-32g-actorder_Trueのように入力します。
- 各オプションのブランチのリストについては、上記の「提供されているファイル」を参照してください。
ダウンロードをクリックします。
モデルのダウンロードが開始されます。完了すると「完了」と表示されます。
左上のモデルの横にある更新アイコンをクリックします。
モデルのドロップダウンメニューで、先ほどダウンロードしたモデルLoyal-Macaroni-Maid-7B-GPTQを選択します。
モデルが自動的にロードされ、使用可能な状態になります！
カスタム設定が必要な場合は、設定を行ってから右上のこのモデルの設定を保存をクリックし、続いてモデルを再読み込みをクリックします。
- 手動でGPTQパラメータを設定する必要はなく、しないでください。これらはquantize_config.jsonファイルから自動的に設定されます。
準備ができたら、テキスト生成タブをクリックし、プロンプトを入力して開始します！

🔧 Text Generation Inference (TGI) からこのモデルを提供する方法

TGIバージョン1.1.0以降を使用することを推奨します。公式のDockerコンテナはghcr.io/huggingface/text-generation-inference:1.1.0です。

例のDockerパラメータは次の通りです。

--model-id TheBloke/Loyal-Macaroni-Maid-7B-GPTQ --port 3000 --quantize gptq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096

TGIとやり取りするための例のPythonコード（huggingface-hub 0.17.0以降が必要）は次の通りです。

pip3 install huggingface-hub

from huggingface_hub import InferenceClient

endpoint_url = "https://your-endpoint-url-here"

prompt = "Tell me about AI"
prompt_template=f'''以下はタスクを説明する指示です。要求を適切に完了する応答を書いてください。

### 指示:
{prompt}

### 応答:
'''

client = InferenceClient(endpoint_url)
response = client.text_generation(
  prompt_template,
  max_new_tokens=128,
  do_sample=True,
  temperature=0.7,
  top_p=0.95,
  top_k=40,
  repetition_penalty=1.1
)

print(f"モデルの出力: {response}")

💻 Pythonコードの例: このGPTQモデルからの推論

必要なパッケージのインストール

Transformers 4.33.0以降、Optimum 1.12.0以降、およびAutoGPTQ 0.4.2以降が必要です。

pip3 install --upgrade transformers optimum
# PyTorch 2.1 + CUDA 12.xを使用する場合:
pip3 install --upgrade auto-gptq
# または、PyTorch 2.1 + CUDA 11.xを使用する場合:
pip3 install --upgrade auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/

PyTorch 2.0を使用している場合は、AutoGPTQをソースからインストールする必要があります。同様に、事前構築されたホイールに問題がある場合は、ソースからビルドすることを試してください。

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.5.1
pip3 install .

例のPythonコード

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/Loyal-Macaroni-Maid-7B-GPTQ"
# 別のブランチを使用する場合は、revisionを変更します
# 例: revision="gptq-4bit-32g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision="main")

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

prompt = "Write a story about llamas"
system_message = "You are a story writing assistant"
prompt_template=f'''以下はタスクを説明する指示です。要求を適切に完了する応答を書いてください。

### 指示:
{prompt}

### 応答:
'''

print("\n\n*** 生成:")

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))

# 推論は、transformersのpipelineを使用しても行えます

print("*** パイプライン:")
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7,
    top_p=0.95,
    top_k=40,
    repetition_penalty=1.1
)

print(pipe(prompt_template)[0]['generated_text'])

🔧 互換性

提供されているファイルは、Transformersで動作することがテストされています。非Mistralモデルの場合は、AutoGPTQを直接使用することもできます。

ExLlamaは、4ビットのLlamaアーキテクチャモデル（Mistral、Yi、DeepSeek、SOLARなどを含む）と互換性があります。各ファイルの互換性については、上記の「提供されているファイル」の表を参照してください。

クライアント/サーバーのリストについては、上記の「互換性のあるクライアント/サーバー」を参照してください。

📄 Discord

これらのモデルやAI全般に関するさらなるサポートや議論に参加するには、以下のDiscordサーバーに参加してください。 TheBloke AIのDiscordサーバー

📄 感謝と貢献方法

chirper.aiチームに感謝します！ gpus.llm-utils.orgのClayに感謝します！

多くの人から貢献できるかどうかを尋ねられました。私はモデルを提供し、人々を助けることが好きで、それにもっと時間を費やし、微調整/トレーニングなどの新しいプロジェクトにも進出できるようになりたいと思っています。

貢献できる方がいれば、大変感謝していただけます。これにより、より多くのモデルを提供し、新しいAIプロジェクトの作業を開始することができます。

寄付者は、すべてのAI/LLM/モデルに関する質問や要求に対する優先サポート、プライベートDiscordルームへのアクセス、およびその他の特典を受けることができます。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別な感謝: Aemon Algiz。 Patreonでの特別な言及: Michael Levine, 阿明, Trailburnt, Nikolai Manek, John Detwiler, Randy H, Will Dee, Sebastain Graf, NimbleBox.ai, Eugene Pentland, Emad Mostaque, Ai Maven, Jim Angel, Jeff Scroggin, Michael Davis, Manuel Alberto Morcote, Stephen Murray, Robert, Justin Joy, Luke @flexchar, Brandon Frisco, Elijah Stavena, S_X, Dan Guido, Undi ., Komninos Chatzipapas, Shadi, theTransient, Lone Striker, Raven Klaugh, jjj, Cap'n Zoog, Michel-Marie MAUDET (LINAGORA), Matthew Berman, David, Fen Risland, Omer Bin Jawed, Luke Pendergrass, Kalila, OG, Erik Bjäreholt, Rooh Singh, Joseph William Delisle, Dan Lewis, TL, John Villwock, AzureBlack, Brad, Pedro Madruga, Caitlyn Gatomon, K, jinyuan sun, Mano Prime, Alex, Jeffrey Morgan, Alicia Loh, Illia Dulskyi, Chadd, transmissions 11, fincy, Rainer Wilmers, ReadyPlayerEmma, knownsqashed, Mandus, biorpg, Deo Leter, Brandon Phillips, SuperWojo, Sean Connelly, Iucharbius, Jack West, Harry Royden McLaughlin, Nicholas, terasurfer, Vitor Caleffi, Duane Dunston, Johann-Peter Hartmann, David Ziegler, Olakabola, Ken Nordquist, Trenton Dambrowitz, Tom X Nguyen, Vadim, Ajan Kanaga, Leonard Tan, Clay Pascal, Alexandros Triantafyllidis, JM33133, Xule, vamX, ya boyyy, subjectnull, Talal Aujan, Alps Aficionado, wassieverse, Ari Malik, James Bentley, Woland, Spencer Kim, Michael Dempsey, Fred von Graf, Elle, zynix, William Richards, Stanislav Ovsiannikov, Edmond Seymore, Jonathan Leane, Martin Kemka, usrbinkat, Enrico Ros

すべての寛大なパトロンと寄付者に感謝します！そして、a16zの寛大な助成金に再度感謝します！