Athena-v4-GPTQオープンソース大規模言語モデル - 無料でデプロイ可能、ロールプレイングと汎用シーンに対応

ホーム

Athena V4 GPTQ

TheBlokeによって開発

Athena v4は実験的な大規模言語モデルで、ロールプレイ、感情的なロールプレイ、汎用シナリオに適しています。Alpaca形式のプロンプトテンプレートを使用します。

大規模言語モデル

Transformers

#ロールプレイ最適化 #感情インタラクション強化 #マルチモデル融合

ダウンロード数 22

リリース時間 : 10/8/2023

モデル概要

Athena v4はIkariDevとUndi95によって開発された実験的言語モデルで、複数の高品質モデルを統合しており、ロールプレイや汎用タスク処理に優れています。

モデル特徴

マルチモデル融合

Athena-v3、Xwin-LM、PsyMedRPなど複数の高品質モデルの長所を融合

ロールプレイ最適化

特にロールプレイと感情インタラクション能力を最適化

Alpaca形式サポート

標準Alpacaプロンプトテンプレートを使用し、統合と使用が容易

モデル能力

テキスト生成

対話システム

ロールプレイ

感情インタラクション

コマンド追従

使用事例

エンターテインメント

ロールプレイゲーム

ゲームNPCとしてプレイヤーと没入型インタラクション

自然で流暢なキャラクター会話体験を提供

クリエイティブライティング

ストーリー生成

プロンプトに基づいて一貫性のあるストーリー展開を生成

創造性豊かな物語コンテンツを生成

🚀 アテナ v4 - GPTQ

このモデルは、IkariDev と Undi95 によって開発されたアテナ v4 の GPTQ モデルです。複数の GPTQ パラメータのパーミュテーションが提供されており、ハードウェアと要件に合わせて最適なものを選ぶことができます。

チャットとサポート: TheBlokeのDiscordサーバー

貢献したい方はこちら: TheBlokeのPatreonページ

TheBlokeのLLM開発は、andreessen horowitz (a16z)からの助成金によって支援されています。

🚀 クイックスタート

このモデルの利用方法やダウンロード方法について説明します。

✨ 主な機能

複数のGPTQパラメータのパーミュテーションが提供されており、ハードウェアと要件に合わせて最適なものを選ぶことができます。
異なるブランチからのダウンロードに対応しています。
text-generation-webuiやPythonコードからの利用が可能です。

📦 インストール

text-generation-webuiでのダウンロード

モデルタブをクリックします。
カスタムモデルまたはLoRAをダウンロードの下にある入力欄に、TheBloke/Athena-v4-GPTQ を入力します。

特定のブランチからダウンロードする場合は、例えば TheBloke/Athena-v4-GPTQ:gptq-4bit-32g-actorder_True のように入力します。

ダウンロードをクリックします。
モデルのダウンロードが開始され、完了すると「完了」と表示されます。
左上の モデル の横にある更新アイコンをクリックします。
モデル のドロップダウンメニューから、先ほどダウンロードしたモデル Athena-v4-GPTQ を選択します。
モデルが自動的にロードされ、利用可能になります。
カスタム設定が必要な場合は、設定を行ってから右上の このモデルの設定を保存 をクリックし、続いて モデルを再読み込み をクリックします。

手動でGPTQパラメータを設定する必要はありません。これらは quantize_config.json ファイルから自動的に設定されます。

準備ができたら、テキスト生成タブ をクリックし、プロンプトを入力して始めましょう！

コマンドラインからのダウンロード

huggingface-hub Pythonライブラリを使用することをおすすめします。

pip3 install huggingface-hub

main ブランチを Athena-v4-GPTQ というフォルダにダウンロードするには、以下のコマンドを実行します。

mkdir Athena-v4-GPTQ
huggingface-cli download TheBloke/Athena-v4-GPTQ --local-dir Athena-v4-GPTQ --local-dir-use-symlinks False

異なるブランチからダウンロードする場合は、--revision パラメータを追加します。

mkdir Athena-v4-GPTQ
huggingface-cli download TheBloke/Athena-v4-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir Athena-v4-GPTQ --local-dir-use-symlinks False

💻 使用例

Pythonコードからの利用

必要なパッケージをインストールします。

pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/  # CUDA 11.7の場合はcu117を使用

AutoGPTQの事前構築済みホイールを使用してインストールできない場合は、ソースからインストールします。

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .

以下のコードを使用してモデルを利用します。

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/Athena-v4-GPTQ"
# 異なるブランチを使用する場合は、revisionを変更します
# 例: revision="gptq-4bit-32g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision="main")

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)

prompt = "AIについて教えて"
output = pipe(prompt, max_new_tokens=128, do_sample=True, temperature=0.7, top_p=0.95, top_k=40, repetition_penalty=1.1)

print(output[0]['generated_text'])

Text Generation Inference (TGI) からの利用

TGIバージョン1.1.0以上を使用することをおすすめします。公式のDockerコンテナは ghcr.io/huggingface/text-generation-inference:1.1.0 です。

--model-id TheBloke/Athena-v4-GPTQ --port 3000 --quantize awq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096

TGIとやり取りするためのPythonコードの例（huggingface-hub 0.17.0以上が必要）

pip3 install huggingface-hub

from huggingface_hub import InferenceClient

endpoint_url = "https://your-endpoint-url-here"

prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:
'''

client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
                                  max_new_tokens=128,
                                  do_sample=True,
                                  temperature=0.7,
                                  top_p=0.95,
                                  top_k=40,
                                  repetition_penalty=1.1)

print(f"Model output: {response}")

📚 ドキュメント

説明

このリポジトリには、IkariDev + Undi95のアテナ v4 のGPTQモデルファイルが含まれています。

利用可能なリポジトリ

プロンプトテンプレート: Alpaca

Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:

提供されるファイルとGPTQパラメータ

複数の量子化パラメータが提供されており、ハードウェアと要件に合わせて最適なものを選ぶことができます。

各量子化は異なるブランチにあります。異なるブランチからの取得方法については、以下を参照してください。

ほとんどのGPTQファイルはAutoGPTQで作成されています。Mistralモデルは現在Transformersで作成されています。

GPTQパラメータの説明

ビット数: 量子化モデルのビットサイズ。
GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。「None」は最小の値です。
Act Order: TrueまたはFalse。desc_act とも呼ばれます。Trueの場合、量子化精度が向上します。一部のGPTQクライアントでは、Act Orderとグループサイズを併用したモデルに問題がありましたが、現在はほぼ解決しています。
Damp %: 量子化のためにサンプルが処理される方法に影響を与えるGPTQパラメータ。デフォルトは0.01ですが、0.1の方がわずかに精度が向上します。
GPTQデータセット: 量子化中に使用されるキャリブレーションデータセット。モデルの学習に適したデータセットを使用すると、量子化精度が向上します。なお、GPTQキャリブレーションデータセットはモデルの学習に使用されるデータセットとは異なります。学習データセットの詳細については、オリジナルのモデルリポジトリを参照してください。
シーケンス長: 量子化に使用されるデータセットのシーケンスの長さ。理想的には、モデルのシーケンス長と同じです。一部の非常に長いシーケンスモデル（16K以上）では、より短いシーケンス長を使用する必要がある場合があります。なお、シーケンス長を短くすると、量子化モデルのシーケンス長が制限されるわけではありません。長い推論シーケンスでの量子化精度にのみ影響します。
ExLlama互換性: このファイルがExLlamaでロードできるかどうか。現在、ExLlamaは4ビットのLlamaモデルのみをサポートしています。

ブランチ	ビット数	GS	Act Order	Damp %	GPTQデータセット	シーケンス長	サイズ	ExLlama	説明
main	4	128	Yes	0.1	wikitext	4096	7.26 GB	Yes	4ビット、Act Order付き、グループサイズ128g。64gよりもVRAMの使用量が少ないが、精度はわずかに低い。
gptq-4bit-32g-actorder_True	4	32	Yes	0.1	wikitext	4096	8.00 GB	Yes	4ビット、Act Order付き、グループサイズ32g。最高の推論品質を提供するが、VRAMの使用量が最大になる。
gptq-8bit--1g-actorder_True	8	None	Yes	0.1	wikitext	4096	13.36 GB	No	8ビット、Act Order付き。グループサイズなし、VRAM要件を低くする。
gptq-8bit-128g-actorder_True	8	128	Yes	0.1	wikitext	4096	13.65 GB	No	8ビット、グループサイズ128gで推論品質を向上させ、Act Orderでさらに精度を向上させる。
gptq-8bit-32g-actorder_True	8	32	Yes	0.1	wikitext	4096	14.54 GB	No	8ビット、グループサイズ32gとAct Orderで最大の推論品質を実現する。
gptq-4bit-64g-actorder_True	4	64	Yes	0.1	wikitext	4096	7.51 GB	Yes	4ビット、Act Order付き、グループサイズ64g。32gよりもVRAMの使用量が少ないが、精度はわずかに低い。

🔧 技術詳細

このモデルは、GPTQ量子化技術を用いて作成されています。GPTQは、モデルの量子化において高精度かつ高速な方法を提供します。

📄 ライセンス

ソースモデルの作成者は、そのライセンスを cc-by-nc-4.0 として公開しており、この量子化モデルも同じライセンスを使用しています。

このモデルはLlama 2をベースにしているため、Meta Llama 2のライセンス条項の対象となり、そのライセンスファイルも追加で含まれています。したがって、このモデルは両方のライセンスの下でライセンスされていると見なされるべきです。デュアルライセンスに関する明確化のためにHugging Faceに問い合わせましたが、まだ公式の立場はありません。この状況が変更された場合、またはMetaから何らかのフィードバックがあった場合、このセクションを適宜更新します。

その間、ライセンスに関する質問、特にこれら2つのライセンスがどのように相互作用するかについては、オリジナルのモデルリポジトリ IkariDev + Undi95のアテナ v4 に問い合わせてください。