Athnete-13B-GPTQオープンソース大規模言語モデル - ロールプレイ、エモーションプレイ、一般的なシーンに対応

ホーム

Athnete 13B GPTQ

TheBlokeによって開発

AthneteはAlpacaフォーマットに基づく13Bパラメータの大規模言語モデルで、ロールプレイ、感情的なロールプレイ、一般的な用途に適しています。

大規模言語モデル

Transformers

#ロールプレイ最適化 #感情的なインタラクション #Alpacaフォーマット

ダウンロード数 24

リリース時間 : 10/29/2023

モデル概要

Athneteモデルは多機能な大規模言語モデルで、特にロールプレイや感情的なインタラクションのシナリオに適しており、一般的なタスク処理能力も優れています。

モデル特徴

ロールプレイ最適化

特にロールプレイや感情的なインタラクションのシナリオに最適化されています

Alpacaフォーマットサポート

標準的なAlpaca命令フォーマットを使用しており、統合と使用が容易です

高性能

13Bパラメータの規模で優れた生成品質を提供します

モデル能力

テキスト生成

対話システム

ロールプレイ

感情的なインタラクション

命令追従

使用事例

エンターテインメント

ロールプレイゲーム

ゲーム内のNPCとして自然な会話を行う

没入型のロールプレイ体験を提供する

クリエイティブライティング

ストーリー生成

プロンプトに基づいて一貫性のあるストーリーを生成する

作家の創造的な構想を支援する

🚀 Athnete 13B - GPTQ

Athnete 13B - GPTQは、IkariDevによって作成されたAthnete 13BモデルのGPTQ量子化バージョンです。複数のGPTQパラメータの組み合わせが提供されており、ハードウェアと要件に合わせて最適なものを選択できます。

チャットとサポート: TheBlokeのDiscordサーバー

貢献したい方は: TheBlokeのPatreonページ

TheBlokeのLLM関連の作業は、andreessen horowitz (a16z)からの助成金によって支援されています。

🚀 クイックスタート

このモデルの基本的な情報を以下に示します。

プロパティ	詳細
モデル作成者	IkariDev
元のモデル	Athnete 13B
モデルタイプ	llama
プロンプトテンプレート	'Below is an instruction that describes a task. Write a response that appropriately completes the request. ### Instruction: {prompt} ### Response: '
量子化者	TheBloke
ベースモデル	IkariDev/Athnete-13B
推論	false
ライセンス	cc-by-nc-4.0

✨ 主な機能

複数のGPTQパラメータの組み合わせが提供され、ハードウェアと要件に合わせて最適なものを選択できます。
複数の推論サーバーやWeb UIで動作することが確認されています。

📦 インストール

text-generation-webuiでのダウンロード

mainブランチからダウンロードするには、「Download model」ボックスにTheBloke/Athnete-13B-GPTQを入力します。
他のブランチからダウンロードするには、ダウンロード名の末尾に:branchnameを追加します。例えば、TheBloke/Athnete-13B-GPTQ:gptq-4bit-32g-actorder_True

コマンドラインからのダウンロード

huggingface-hub Pythonライブラリを使用することをおすすめします。

pip3 install huggingface-hub

mainブランチをAthnete-13B-GPTQというフォルダにダウンロードするには、以下のコマンドを実行します。

mkdir Athnete-13B-GPTQ
huggingface-cli download TheBloke/Athnete-13B-GPTQ --local-dir Athnete-13B-GPTQ --local-dir-use-symlinks False

異なるブランチからダウンロードするには、--revisionパラメータを追加します。

mkdir Athnete-13B-GPTQ
huggingface-cli download TheBloke/Athnete-13B-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir Athnete-13B-GPTQ --local-dir-use-symlinks False

💻 使用例

text-generation-webuiでの使用方法

Modelタブをクリックします。
Download custom model or LoRAの下にTheBloke/Athnete-13B-GPTQを入力します。
- 特定のブランチからダウンロードするには、例えばTheBloke/Athnete-13B-GPTQ:gptq-4bit-32g-actorder_Trueと入力します。
- 各オプションのブランチのリストは、「Provided Files」を参照してください。
Downloadをクリックします。
モデルのダウンロードが開始されます。完了すると「Done」と表示されます。
左上のModelの横にある更新アイコンをクリックします。
Modelのドロップダウンメニューから、先ほどダウンロードしたモデルAthnete-13B-GPTQを選択します。
モデルが自動的にロードされ、使用可能な状態になります。
カスタム設定が必要な場合は、設定を行ってから右上のSave settings for this modelをクリックし、続いてReload the Modelをクリックします。
- 手動でGPTQパラメータを設定する必要はありません。これらはquantize_config.jsonファイルから自動的に設定されます。
準備ができたら、Text Generationタブをクリックし、プロンプトを入力して使用を開始します。

Text Generation Inference (TGI)からの使用方法

TGIバージョン1.1.0以上の使用をおすすめします。公式のDockerコンテナはghcr.io/huggingface/text-generation-inference:1.1.0です。

例のDockerパラメータ:

--model-id TheBloke/Athnete-13B-GPTQ --port 3000 --quantize gptq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096

TGIとやり取りするための例のPythonコード（huggingface-hub 0.17.0以上が必要）:

pip3 install huggingface-hub

from huggingface_hub import InferenceClient

endpoint_url = "https://your-endpoint-url-here"

prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:
'''

client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
                                  max_new_tokens=128,
                                  do_sample=True,
                                  temperature=0.7,
                                  top_p=0.95,
                                  top_k=40,
                                  repetition_penalty=1.1)

print(f"Model output: {response}")

Pythonコードからの使用方法

必要なパッケージをインストールします。

pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/  # CUDA 11.7の場合はcu117を使用

📚 詳細ドキュメント

提供されているファイルとGPTQパラメータ

複数の量子化パラメータが提供されており、ハードウェアと要件に合わせて最適なものを選択できます。

各量子化は異なるブランチにあります。異なるブランチからの取得方法については、以下を参照してください。

ほとんどのGPTQファイルはAutoGPTQで作成されています。Mistralモデルは現在、Transformersで作成されています。

GPTQパラメータの説明

Bits: 量子化されたモデルのビットサイズ。
GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。「None」は最小の値です。
Act Order: TrueまたはFalse。desc_actとも呼ばれます。Trueの場合、量子化精度が向上します。一部のGPTQクライアントでは、Act OrderとGroup Sizeを使用するモデルに問題がありましたが、現在はほとんど解決されています。
Damp %: 量子化のためにサンプルが処理される方法に影響するGPTQパラメータ。デフォルトは0.01ですが、0.1の方がわずかに精度が向上します。
GPTQデータセット: 量子化中に使用されるキャリブレーションデータセット。モデルの学習に適したデータセットを使用すると、量子化精度が向上する場合があります。なお、GPTQキャリブレーションデータセットはモデルの学習に使用されるデータセットとは異なります。学習データセットの詳細については、元のモデルリポジトリを参照してください。
シーケンス長: 量子化中に使用されるデータセットシーケンスの長さ。理想的には、モデルのシーケンス長と同じです。一部の非常に長いシーケンスモデル（16+K）では、より短いシーケンス長を使用する必要がある場合があります。ただし、シーケンス長を短くすると、量子化されたモデルのシーケンス長が制限されるわけではありません。長い推論シーケンスでの量子化精度にのみ影響します。
ExLlama互換性: このファイルがExLlamaでロードできるかどうか。現在、ExLlamaは4ビットのLlamaとMistralモデルのみをサポートしています。

ブランチ	ビット	GS	Act Order	Damp %	GPTQデータセット	シーケンス長	サイズ	ExLlama	説明
main	4	128	Yes	0.1	wikitext	4096	7.26 GB	Yes	4ビット、Act Orderとグループサイズ128gを使用。64gよりもVRAMの使用量が少ないですが、精度はわずかに低下します。
gptq-4bit-32g-actorder_True	4	32	Yes	0.1	wikitext	4096	8.00 GB	Yes	4ビット、Act Orderとグループサイズ32gを使用。可能な限り高い推論品質を提供しますが、最大のVRAMを使用します。
gptq-8bit--1g-actorder_True	8	None	Yes	0.1	wikitext	4096	13.36 GB	No	8ビット、Act Orderを使用。グループサイズはありません。VRAMの要件を下げるためです。
gptq-8bit-128g-actorder_True	8	128	Yes	0.1	wikitext	4096	13.65 GB	No	8ビット、グループサイズ128gを使用して推論品質を向上させ、Act Orderを使用してさらに精度を向上させます。
gptq-8bit-32g-actorder_True	8	32	Yes	0.1	wikitext	4096	14.54 GB	No	8ビット、グループサイズ32gとAct Orderを使用して最大の推論品質を提供します。
gptq-4bit-64g-actorder_True	4	64	Yes	0.1	wikitext	4096	7.51 GB	Yes	4ビット、Act Orderとグループサイズ64gを使用。32gよりもVRAMの使用量が少ないですが、精度はわずかに低下します。

ブランチからのダウンロード方法

text-generation-webuiでのダウンロード

mainブランチからダウンロードするには、「Download model」ボックスにTheBloke/Athnete-13B-GPTQを入力します。
他のブランチからダウンロードするには、ダウンロード名の末尾に:branchnameを追加します。例えば、TheBloke/Athnete-13B-GPTQ:gptq-4bit-32g-actorder_True

コマンドラインからのダウンロード

huggingface-hub Pythonライブラリを使用することをおすすめします。

pip3 install huggingface-hub

mainブランチをAthnete-13B-GPTQというフォルダにダウンロードするには、以下のコマンドを実行します。

mkdir Athnete-13B-GPTQ
huggingface-cli download TheBloke/Athnete-13B-GPTQ --local-dir Athnete-13B-GPTQ --local-dir-use-symlinks False

異なるブランチからダウンロードするには、--revisionパラメータを追加します。

mkdir Athnete-13B-GPTQ
huggingface-cli download TheBloke/Athnete-13B-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir Athnete-13B-GPTQ --local-dir-use-symlinks False

huggingface-cliダウンロードの高度な使用方法

--local-dir-use-symlinks Falseパラメータを削除すると、ファイルは中央のHugging Faceキャッシュディレクトリ（Linuxのデフォルトの場所は~/.cache/huggingface）に保存され、指定された--local-dirにシンボリックリンクが追加され、キャッシュ内の実際の場所を指します。これにより、中断されたダウンロードを再開でき、ディスク上の複数の場所にリポジトリをすばやくクローンでき、再ダウンロードをトリガーすることなく済みます。ただし、欠点として、ファイルがキャッシュフォルダに隠されるため、ディスクスペースの使用場所がわかりにくくなり、ダウンロードしたモデルを削除する場合にクリーンアップが難しくなります。

キャッシュの場所は、HF_HOME環境変数とhuggingface-cliの--cache-dirパラメータで変更できます。

huggingface-cliを使用したダウンロードの詳細なドキュメントについては、HF -> Hub Python Library -> Download files -> Download from the CLIを参照してください。

高速接続（1Gbit/s以上）でのダウンロードを高速化するには、hf_transferをインストールします。

pip3 install hf_transfer

そして、環境変数HF_HUB_ENABLE_HF_TRANSFERを1に設定します。

mkdir Athnete-13B-GPTQ
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Athnete-13B-GPTQ --local-dir Athnete-13B-GPTQ --local-dir-use-symlinks False

Windowsコマンドラインユーザーは、ダウンロードコマンドの前にset HF_HUB_ENABLE_HF_TRANSFER=1を実行して環境変数を設定できます。

`git`を使用したダウンロード（推奨しません）

特定のブランチをgitでクローンするには、次のようなコマンドを使用します。

git clone --single-branch --branch gptq-4bit-32g-actorder_True https://huggingface.co/TheBloke/Athnete-13B-GPTQ

なお、HFリポジトリでgitを使用することは強くお勧めしません。huggingface-hubを使用するよりもはるかに遅く、モデルファイルを2回保存する必要があるため、ディスクスペースを2倍使います（目的のターゲットフォルダと.gitフォルダの両方にすべてのバイトを保存します）。

🔧 技術詳細

このモデルは、GPTQ量子化技術を使用して作成されています。GPTQは、大規模言語モデルを量子化するための手法であり、モデルのパラメータを低ビット表現に変換することで、VRAMの使用量を削減します。

📄 ライセンス

ソースモデルの作成者は、そのライセンスをcc-by-nc-4.0としてリストしており、この量子化も同じライセンスを使用しています。

このモデルはLlama 2をベースにしているため、Meta Llama 2のライセンス条項の対象となり、そのライセンスファイルも追加で含まれています。したがって、このモデルは両方のライセンスの下でライセンスされていると見なされるべきです。デュアルライセンスについての明確化のためにHugging Faceに問い合わせましたが、まだ公式の立場はありません。この状況が変更された場合、またはMetaからこの状況に関するフィードバックがあった場合、このセクションを適宜更新します。

その間、ライセンスに関する質問、特にこれら2つのライセンスがどのように相互作用するかについては、元のモデルリポジトリIkariDev's Athnete 13Bに問い合わせてください。