MythoMax-L2-13B-GPTQオープンソース大規模言語モデル - 無料デプロイでロールプレイングと創作意欲的なテキスト生成をサポート

ホーム

Mythomax L2 13B GPTQ

TheBlokeによって開発

MythoMax L2 13BはGrypheによって開発された大規模言語モデルで、Llama 2アーキテクチャを基盤としており、ロールプレイとクリエイティブなテキスト生成に特化しています。

大規模言語モデル

Transformers

英語オープンソースライセンス:その他 #ロールプレイ最適化 #中国語対話生成 #マルチターン対話サポート

ダウンロード数 5,324

リリース時間 : 8/11/2023

モデル概要

MythoMax L2 13Bは13Bパラメータの大規模言語モデルで、ロールプレイとクリエイティブなテキスト生成に最適化されています。複数の量子化バージョンをサポートしており、様々なハードウェア構成での推論ニーズに対応します。

モデル特徴

マルチ量子化オプション

4ビットと8ビットの量子化バージョンを提供し、異なるグループサイズとアクティベーション順序をサポートし、様々なハードウェア構成に対応します。

ロールプレイ最適化

ロールプレイ対話能力を特別に最適化し、構造化プロンプトテンプレートをサポートします。

効率的な推論

GPTQ量子化技術により効率的な推論を実現し、ハードウェア要件を低減します。

モデル能力

テキスト生成

ロールプレイ対話

クリエイティブライティング

使用事例

エンターテインメント

インタラクティブロールプレイ

仮想キャラクターとの没入型対話体験

キャラクター設定に合った自然な返答を生成

クリエイティブライティング

ストーリー生成

作家のクリエイティブライティングとストーリー構想を支援

一貫性のあるストーリー展開とキャラクター対話を生成

🚀 MythoMax L2 13B - GPTQ

このモデルは、GPTQ形式のMythoMax L2 13Bモデルファイルを提供します。複数のGPTQパラメータの組み合わせが用意されており、ハードウェアと要件に合わせて最適なものを選ぶことができます。

🚀 クイックスタート

このセクションでは、MythoMax L2 13B - GPTQモデルをすぐに使い始める方法を説明します。

利用可能なリポジトリ

モデルのダウンロード方法

text-generation-webuiを使用する場合

モデルタブをクリックします。
Download custom model or LoRAの下に、TheBloke/MythoMax-L2-13B-GPTQを入力します。特定のブランチからダウンロードする場合は、例えばTheBloke/MythoMax-L2-13B-GPTQ:mainのように入力します。各オプションのブランチのリストは、「提供されるファイルとGPTQパラメータ」を参照してください。
Downloadをクリックします。
モデルのダウンロードが始まります。完了すると「Done」と表示されます。
左上のModelの横にある更新アイコンをクリックします。
Modelのドロップダウンメニューから、先ほどダウンロードしたモデルMythoMax-L2-13B-GPTQを選択します。
モデルは自動的にロードされ、使用可能になります！
カスタム設定が必要な場合は、設定を行ってから右上のSave settings for this modelをクリックし、続いてReload the Modelをクリックします。手動でGPTQパラメータを設定する必要はなく、quantize_config.jsonファイルから自動的に設定されます。
準備ができたら、Text Generation tabをクリックし、プロンプトを入力して始めましょう！

Gitを使用する場合

git clone --single-branch --branch main https://huggingface.co/TheBloke/MythoMax-L2-13B-GPTQ

Python Transformersコードから使用する場合

ブランチはrevisionパラメータで指定します。以下のコード例を参照してください。

✨ 主な機能

複数のGPTQパラメータの組み合わせが用意されており、ハードウェアと要件に合わせて最適なものを選ぶことができます。
最新のAutoGPTQを使用して作成されたGPTQファイルを提供しています。

📦 インストール

PythonコードからこのGPTQモデルを使用する場合

必要なパッケージのインストール

Transformers 4.32.0以降、Optimum 1.12.0以降、およびAutoGPTQ 0.4.2以降が必要です。

pip3 install transformers>=4.32.0 optimum>=1.12.0
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/  # CUDA 11.7の場合はcu117を使用

AutoGPTQを事前構築済みのホイールを使用してインストールする際に問題がある場合は、ソースからインストールしてください。

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
pip3 install .

CodeLlamaモデルの場合

Transformers 4.33.0以降を使用する必要があります。このドキュメントを読んでいる時点で4.33.0がまだリリースされていない場合は、ソースからTransformersをインストールする必要があります。

pip3 uninstall -y transformers
pip3 install git+https://github.com/huggingface/transformers.git

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/MythoMax-L2-13B-GPTQ"
# 異なるブランチを使用する場合は、revisionを変更します
# 例: revision="main"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision="main")

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:

'''

print("\n\n*** Generate:")

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))

# Inference can also be done using transformers' pipeline

print("*** Pipeline:")
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7,
    top_p=0.95,
    top_k=40,
    repetition_penalty=1.1
)

print(pipe(prompt_template)[0]['generated_text'])

📚 ドキュメント

説明

このリポジトリには、GrypheのMythoMax L2 13BのGPTQモデルファイルが含まれています。複数のGPTQパラメータの組み合わせが提供されており、以下の「提供されるファイルとGPTQパラメータ」で各オプションの詳細、パラメータ、および作成に使用されたソフトウェアについて説明しています。

プロンプトテンプレート: カスタム

{system_message}

### Instruction:
{prompt}
(For roleplay purposes, I suggest the following - Write <CHAR NAME>'s next reply in a chat between <YOUR NAME> and <CHAR NAME>. Write a single reply only.)

### Response:

提供されるファイルとGPTQパラメータ

複数の量子化パラメータが提供されており、ハードウェアと要件に合わせて最適なものを選ぶことができます。各個別の量子化は異なるブランチにあります。異なるブランチから取得する方法については、以下を参照してください。

すべての最近のGPTQファイルはAutoGPTQで作成されており、mainブランチ以外のすべてのファイルもAutoGPTQで作成されています。2023年8月より前にアップロードされたmainブランチのファイルは、GPTQ-for-LLaMaで作成されています。

GPTQパラメータの説明

Bits: 量子化されたモデルのビットサイズ。
GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。「None」は最小の値です。
Act Order: TrueまたはFalse。desc_actとも呼ばれます。Trueの場合、より高い量子化精度が得られます。一部のGPTQクライアントでは、Act Orderとグループサイズを併用したモデルに問題がありましたが、現在は一般的に解決されています。
Damp %: 量子化のためにサンプルが処理される方法に影響を与えるGPTQパラメータ。デフォルトは0.01ですが、0.1の方がわずかに精度が向上します。
GPTQ dataset: 量子化に使用されるデータセット。モデルの学習に適したデータセットを使用すると、量子化精度を向上させることができます。ただし、GPTQデータセットはモデルの学習に使用されるデータセットとは異なります。学習データセットの詳細については、元のモデルリポジトリを参照してください。
Sequence Length: 量子化に使用されるデータセットシーケンスの長さ。理想的には、モデルのシーケンス長と同じです。一部の非常に長いシーケンスモデル（16+K）では、より短いシーケンス長を使用する必要がある場合があります。ただし、短いシーケンス長は量子化されたモデルのシーケンス長を制限するものではなく、長い推論シーケンスでの量子化精度にのみ影響します。
ExLlama Compatibility: このファイルがExLlamaでロードできるかどうか。現在、ExLlamaは4ビットのLlamaモデルと互換性があります。

ブランチ	Bits	GS	Act Order	Damp %	GPTQ Dataset	Seq Len	サイズ	ExLlama	説明
main	4	128	No	0.1	wikitext	4096	7.26 GB	Yes	4ビット、Act Orderなし、グループサイズ128g。
gptq-4bit-32g-actorder_True	4	32	Yes	0.1	wikitext	4096	8.00 GB	Yes	4ビット、Act Orderあり、グループサイズ32g。最大の推論品質を提供しますが、最大のVRAM使用量となります。
gptq-4bit-64g-actorder_True	4	64	Yes	0.1	wikitext	4096	7.51 GB	Yes	4ビット、Act Orderあり、グループサイズ64g。32gよりもVRAMの使用量が少ないですが、精度はわずかに低くなります。
gptq-4bit-128g-actorder_True	4	128	Yes	0.1	wikitext	4096	7.26 GB	Yes	4ビット、Act Orderあり、グループサイズ128g。64gよりもさらにVRAMの使用量が少ないですが、精度はわずかに低くなります。
gptq-8bit--1g-actorder_True	8	None	Yes	0.1	wikitext	4096	13.36 GB	No	8ビット、Act Orderあり。グループサイズなしで、VRAMの要件を低く抑えます。
gptq-8bit-128g-actorder_True	8	128	Yes	0.1	wikitext	4096	13.65 GB	No	8ビット、グループサイズ128gでより高い推論品質を提供し、Act Orderでさらに高い精度を実現します。

互換性

提供されるファイルは、Transformersを介して、またはAutoGPTQを直接使用して、AutoGPTQとの互換性がテストされています。Occ4m's GPTQ-for-LLaMa forkでも動作するはずです。

ExLlamaは4ビットのLlamaモデルと互換性があります。各ファイルの互換性については、上記の「提供されるファイルとGPTQパラメータ」の表を参照してください。

Huggingface Text Generation Inference (TGI)はすべてのGPTQモデルと互換性があります。

📄 ライセンス

ソースモデルの作成者は、ライセンスをotherとしてリストしており、この量子化も同じライセンスを使用しています。

このモデルはLlama 2をベースにしているため、Meta Llama 2のライセンス条項の対象となり、そのライセンスファイルも追加で含まれています。したがって、このモデルは両方のライセンスの下でライセンスされていると見なされるべきです。私はHugging Faceに二重ライセンスについての明確化を依頼しましたが、まだ公式の立場がありません。これが変更された場合、またはMetaがこの状況について何らかのフィードバックを提供した場合、このセクションを適宜更新します。

同時に、ライセンスに関する質問、特にこれら2つのライセンスがどのように相互作用するかについては、元のモデルリポジトリであるGryphe's MythoMax L2 13Bに問い合わせてください。

Discord

これらのモデルやAI全般に関するさらなるサポートや議論に参加するには、以下のDiscordサーバーに参加してください。

TheBloke AI's Discord server

謝辞と寄付方法

chirper.aiチームに感謝します！

gpus.llm-utils.orgのClayに感謝します！

多くの人から寄付の可否を尋ねられています。私はモデルを提供し、人々を助けることが好きであり、これにさらに多くの時間を費やし、微調整/トレーニングなどの新しいプロジェクトにも進出したいと思っています。

寄付いただける方は、AI/LLM/モデルに関するすべての質問やリクエストに対する優先サポート、プライベートDiscordルームへのアクセス、その他の特典を受けることができます。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別な感謝: Aemon Algiz。

Patreonでの特別な言及: Alicia Loh, Stephen Murray, K, Ajan Kanaga, RoA, Magnesian, Deo Leter, Olakabola, Eugene Pentland, zynix, Deep Realms, Raymond Fosdick, Elijah Stavena, Iucharbius, Erik Bjäreholt, Luis Javier Navarrete Lozano, Nicholas, theTransient, John Detwiler, alfie_i, knownsqashed, Mano Prime, Willem Michiel, Enrico Ros, LangChain4j, OG, Michael Dempsey, Pierre Kircher, Pedro Madruga, James Bentley, Thomas Belote, Luke @flexchar, Leonard Tan, Johann-Peter Hartmann, Illia Dulskyi, Fen Risland, Chadd, S_X, Jeff Scroggin, Ken Nordquist, Sean Connelly, Artur Olbinski, Swaroop Kallakuri, Jack West, Ai Maven, David Ziegler, Russ Johnson, transmissions 11, John Villwock, Alps Aficionado, Clay Pascal, Viktor Bowallius, Subspace Studios, Rainer Wilmers, Trenton Dambrowitz, vamX, Michael Levine, 준교 김, Brandon Frisco, Kalila, Trailburnt, Randy H, Talal Aujan, Nathan Dryer, Vadim, 阿明, ReadyPlayerEmma, Tiffany J. Kim, George Stoitzev, Spencer Kim, Jerry Meng, Gabriel Tamborski, Cory Kujawski, Jeff