Nethena-20B-GPTQオープンソース大規模言語モデル - 無料でロールプレイングと感情交流を実現

ホーム

Nethena 20B GPTQ

TheBlokeによって開発

Nethena-20BはNeverSleepによって開発された200億パラメータの大規模言語モデルで、ロールプレイ、感情的なインタラクション、および一般的な用途に適しています。

大規模言語モデル

Transformers

#ロールプレイ最適化 #マルチモデル融合 #長文生成

ダウンロード数 29

リリース時間 : 10/30/2023

モデル概要

Nethena-20BはEchidna v0.3、Athena v3、Neteモデルの組み合わせで、高品質なテキスト生成能力を提供し、特にロールプレイや感情的なインタラクションのシナリオに適しています。

モデル特徴

マルチモデル融合

Echidna、Athena、Neteの3つのモデルの利点を組み合わせ、より包括的なテキスト生成能力を提供します。

ロールプレイ最適化

特にロールプレイや感情的なインタラクションのシナリオに適しており、感情豊かな応答を生成できます。

Alpacaプロンプトテンプレート

Alpaca形式のプロンプトテンプレートを使用し、指示の追従とタスクの完了を容易にします。

モデル能力

テキスト生成

ロールプレイ

感情的なインタラクション

指示の追従

使用事例

エンターテインメント

ロールプレイゲーム

ゲーム内のキャラクターの会話やプロットの展開を生成するために使用されます。

没入型のロールプレイ体験を提供します。

感情的なインタラクション

感情サポートチャット

共感と理解力のある応答を生成し、感情サポートのシナリオで使用されます。

ユーザーが感情的な慰めとサポートを得るのに役立ちます。

🚀 Nethena 20B - GPTQ

Nethena 20B - GPTQは、NeverSleepによって作成されたNethena 20BモデルのGPTQ形式のモデルです。複数のGPTQパラメータのパーミュテーションが提供されており、ハードウェアと要件に合わせて最適なものを選択できます。

🚀 クイックスタート

このセクションでは、Nethena 20B - GPTQモデルの基本的な使い方を説明します。

✨ 主な機能

複数のGPTQパラメータのパーミュテーションが提供され、ハードウェアと要件に合わせて最適なものを選択できます。
複数の推論サーバー/ウェブUIで動作することが知られています。

📦 インストール

text-generation-webuiでのダウンロード

mainブランチからダウンロードするには、「Download model」ボックスにTheBloke/Nethena-20B-GPTQを入力します。他のブランチからダウンロードするには、ダウンロード名の末尾に:branchnameを追加します。例えば、TheBloke/Nethena-20B-GPTQ:gptq-4bit-128g-actorder_Trueです。

コマンドラインからのダウンロード

huggingface-hubPythonライブラリを使用することをおすすめします。

pip3 install huggingface-hub

mainブランチをNethena-20B-GPTQというフォルダにダウンロードするには、次のコマンドを実行します。

mkdir Nethena-20B-GPTQ
huggingface-cli download TheBloke/Nethena-20B-GPTQ --local-dir Nethena-20B-GPTQ --local-dir-use-symlinks False

別のブランチからダウンロードするには、--revisionパラメータを追加します。

mkdir Nethena-20B-GPTQ
huggingface-cli download TheBloke/Nethena-20B-GPTQ --revision gptq-4bit-128g-actorder_True --local-dir Nethena-20B-GPTQ --local-dir-use-symlinks False

`git`を使用する場合（非推奨）

特定のブランチをgitでクローンするには、次のようなコマンドを使用します。

git clone --single-branch --branch gptq-4bit-128g-actorder_True https://huggingface.co/TheBloke/Nethena-20B-GPTQ

💻 使用例

基本的な使用法

from huggingface_hub import InferenceClient

endpoint_url = "https://your-endpoint-url-here"

prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:
'''

client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
                                  max_new_tokens=128,
                                  do_sample=True,
                                  temperature=0.7,
                                  top_p=0.95,
                                  top_k=40,
                                  repetition_penalty=1.1)

print(f"Model output: {response}")

高度な使用法

# 高度な使用法の説明
# 例えば、特定のパラメータを調整して性能を最適化するなど
from huggingface_hub import InferenceClient

endpoint_url = "https://your-endpoint-url-here"

prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:
'''

client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
                                  max_new_tokens=256,
                                  do_sample=True,
                                  temperature=0.8,
                                  top_p=0.9,
                                  top_k=50,
                                  repetition_penalty=1.2)

print(f"Model output: {response}")

📚 ドキュメント

説明

このリポジトリには、NeverSleepのNethena 20BのGPTQモデルファイルが含まれています。複数のGPTQパラメータのパーミュテーションが提供されており、提供されているオプション、そのパラメータ、およびそれらを作成するために使用されたソフトウェアの詳細については、「Provided files, and GPTQ parameters」を参照してください。これらのファイルは、Massed Computeによって提供されたハードウェアを使用して量子化されました。

利用可能なリポジトリ

ライセンス

ソースモデルの作成者は、そのライセンスをcc-by-nc-4.0としてリストしており、この量子化も同じライセンスを使用しています。このモデルはLlama 2をベースにしているため、Meta Llama 2のライセンス条項の対象となり、そのライセンスファイルも追加で含まれています。したがって、これら2つのライセンスの下でライセンスされていると見なされるべきです。二重ライセンスに関する明確化のためにHugging Faceに問い合わせましたが、まだ公式の立場はありません。これが変更された場合、またはMetaがこの状況に関するフィードバックを提供した場合、このセクションを適宜更新します。その間、ライセンスに関する質問、特にこれら2つのライセンスがどのように相互作用するかについては、元のモデルリポジトリ：NeverSleepのNethena 20Bに問い合わせてください。

互換性のあるクライアント/サーバー

これらのGPTQモデルは、以下の推論サーバー/ウェブUIで動作することが知られています。

text-generation-webui
KobaldAI United
LoLLMS Web UI
Hugging Face Text Generation Inference (TGI) これは完全なリストではない可能性があります。他のものを知っている場合は、教えてください！

提供されるファイルとGPTQパラメータ

複数の量子化パラメータが提供されており、ハードウェアと要件に最適なものを選択できます。各個別の量子化は異なるブランチにあります。異なるブランチから取得する方法については、以下を参照してください。ほとんどのGPTQファイルはAutoGPTQで作成されています。Mistralモデルは現在、Transformersで作成されています。

GPTQパラメータの説明

Bits: 量子化されたモデルのビットサイズ。
GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。「None」は最小の値です。
Act Order: TrueまたはFalse。desc_actとも呼ばれます。Trueの場合、量子化精度が向上します。一部のGPTQクライアントでは、Act OrderとGroup Sizeを使用するモデルに問題がありましたが、現在は一般的に解決されています。
Damp %: 量子化のためにサンプルが処理される方法に影響を与えるGPTQパラメータ。デフォルトは0.01ですが、0.1の方がわずかに精度が向上します。
GPTQ dataset: 量子化中に使用されるキャリブレーションデータセット。モデルのトレーニングに適したデータセットを使用すると、量子化精度を向上させることができます。GPTQキャリブレーションデータセットは、モデルのトレーニングに使用されるデータセットとは異なることに注意してください。トレーニングデータセットの詳細については、元のモデルリポジトリを参照してください。
Sequence Length: 量子化に使用されるデータセットシーケンスの長さ。理想的には、モデルのシーケンス長と同じです。一部の非常に長いシーケンスモデル（16+K）では、より短いシーケンス長を使用する必要がある場合があります。ただし、短いシーケンス長は、量子化されたモデルのシーケンス長を制限するものではありません。長い推論シーケンスでの量子化精度にのみ影響します。
ExLlama Compatibility: このファイルがExLlamaでロードできるかどうか。現在、ExLlamaは4ビットのLlamaおよびMistralモデルのみをサポートしています。

ブランチ	ビット	GS	Act Order	Damp %	GPTQデータセット	Seq Len	サイズ	ExLlama	説明
main	4	None	Yes	0.1	wikitext	4096	10.52 GB	Yes	4ビット、Act Orderあり。グループサイズなし、VRAM要件を低減します。
gptq-4bit-128g-actorder_True	4	128	Yes	0.1	wikitext	4096	10.89 GB	Yes	4ビット、Act Orderとグループサイズ128gあり。64gよりもVRAMの使用量が少なくなりますが、精度はわずかに低下します。
gptq-4bit-32g-actorder_True	4	32	Yes	0.1	wikitext	4096	12.04 GB	Yes	4ビット、Act Orderとグループサイズ32gあり。最大の推論品質を提供しますが、VRAMの使用量が最大になります。
gptq-3bit-128g-actorder_True	3	128	Yes	0.1	wikitext	4096	8.41 GB	No	3ビット、グループサイズ128gとact-orderあり。128g-Falseよりも品質が高いです。
gptq-8bit--1g-actorder_True	8	None	Yes	0.1	wikitext	4096	20.35 GB	No	8ビット、Act Orderあり。グループサイズなし、VRAM要件を低減します。
gptq-3bit-32g-actorder_True	3	32	Yes	0.1	wikitext	4096	9.51 GB	No	3ビット、グループサイズ64gとact-orderあり。最高品質の3ビットオプションです。
gptq-8bit-128g-actorder_True	8	128	Yes	0.1	wikitext	4096	20.80 GB	No	8ビット、グループサイズ128gで推論品質が向上し、Act Orderでさらに精度が向上します。

text-generation-webuiでの使用方法

text-generation-webuiの最新バージョンを使用していることを確認してください。手動インストール方法を熟知していない限り、text-generation-webuiのワンクリックインストーラーを使用することを強くおすすめします。

Modelタブをクリックします。
Download custom model or LoRAの下に、TheBloke/Nethena-20B-GPTQを入力します。
- 特定のブランチからダウンロードするには、例えばTheBloke/Nethena-20B-GPTQ:gptq-4bit-128g-actorder_Trueを入力します。
- 各オプションのブランチのリストについては、「Provided files, and GPTQ parameters」を参照してください。
Downloadをクリックします。
モデルのダウンロードが完了すると、「Done」と表示されます。
左上のModelの横にある更新アイコンをクリックします。
Modelのドロップダウンメニューから、先ほどダウンロードしたモデルNethena-20B-GPTQを選択します。
モデルは自動的にロードされ、使用可能になります！
カスタム設定が必要な場合は、設定してから右上のSave settings for this modelをクリックし、続いてReload the Modelをクリックします。
- 手動でGPTQパラメータを設定する必要はなく、しかも設定しないでください。これらはquantize_config.jsonファイルから自動的に設定されます。
準備ができたら、Text Generationタブをクリックし、プロンプトを入力して開始します！

Text Generation Inference (TGI)からのモデルの提供

TGIバージョン1.1.0以降を使用することをおすすめします。公式のDockerコンテナはghcr.io/huggingface/text-generation-inference:1.1.0です。例のDockerパラメータは次の通りです。

--model-id TheBloke/Nethena-20B-GPTQ --port 3000 --quantize gptq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096

TGIとのインターフェース用の例のPythonコード（huggingface-hub 0.17.0以降が必要）は次の通りです。

pip3 install huggingface-hub

from huggingface_hub import InferenceClient

endpoint_url = "https://your-endpoint-url-here"

prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:
'''

client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
                                  max_new_tokens=128,
                                  do_sample=True,
                                  temperature=0.7,
                                  top_p=0.95,
                                  top_k=40,
                                  repetition_penalty=1.1)

print(f"Model output: {response}")

🔧 技術詳細

このモデルは、GPTQ形式で量子化されています。GPTQは、大規模言語モデルを低ビット表現に量子化するための手法であり、VRAMの使用量を大幅に削減することができます。量子化に使用されたデータセットはwikitextであり、これにより量子化精度が向上します。また、複数の量子化パラメータのパーミュテーションが提供されており、ハードウェアと要件に合わせて最適なものを選択できます。

📄 ライセンス

このモデルはcc-by-nc-4.0ライセンスの下で提供されています。また、Llama 2をベースにしているため、Meta Llama 2のライセンス条項の対象となります。ライセンスに関する詳細な質問、特にこれら2つのライセンスがどのように相互作用するかについては、元のモデルリポジトリ：NeverSleepのNethena 20Bに問い合わせてください。