LLaMA2-13B-Tiefighter-GPTQオープンソース大規模言語モデル - 無料でデプロイ可能、創作執筆とロールプレイの達人

ホーム

Llama2 13B Tiefighter GPTQ

TheBlokeによって開発

Tiefighterは、既存の成熟したマージモデルを基に、2つの異なるLoRAを統合して実現した13Bパラメータの大規模言語モデルで、クリエイティブライティングとロールプレイングに優れています。

大規模言語モデル

Transformers

#クリエイティブライティング #ロールプレイング #アドベンチャーゲーム

ダウンロード数 94

リリース時間 : 10/22/2023

モデル概要

このモデルはLLaMA2-13Bアーキテクチャをベースにしており、複数の優れたモデルとLoRAアダプターを統合しており、特にクリエイティブライティング、ストーリー生成、ロールプレイング能力が最適化されています。

モデル特徴

クリエイティブライティング最適化

ストーリー創作やクリエイティブライティングタスクに特に適しており、一貫性のある長編コンテンツを生成可能

ロールプレイング能力

複雑なロールプレイングシナリオをサポートするように調整されており、キャラクターの一貫性を維持可能

マルチモデル融合

Xwin-MLewd、RetroRodeo、Storywriterなど複数の優れた上流モデルの利点を融合

柔軟なプロンプト形式

Alpaca形式や自由チャットモードなど、複数の命令形式をサポート

モデル能力

テキスト生成

対話システム

ストーリー創作

ロールプレイング

命令追従

クリエイティブライティング

使用事例

コンテンツ創作

小説執筆

一貫性のある小説の章やプロット展開を生成

論理的な長編ストーリーコンテンツを創作可能

脚本創作

対話やシーン描写を含む脚本を生成

キャラクターの対話スタイルの一貫性を維持可能

エンターテインメントアプリケーション

テキストアドベンチャーゲーム

ゲームエンジンとしてテキストベースのアドベンチャーゲームを駆動

>コマンド形式のアドベンチャーモードインタラクションをサポート

ロールプレイングチャット

特定のキャラクターの対話行動をシミュレート

簡単なプロンプトに基づいてキャラクター特性を即興で発揮可能

🚀 Llama2 13B Tiefighter - GPTQ

このモデルは、KoboldAIによって作成されたLlama2 13B TiefighterのGPTQモデルファイルを含んでいます。複数のGPTQパラメータの組み合わせが提供されており、ハードウェアと要件に合わせて最適なものを選ぶことができます。

チャットとサポート: TheBlokeのDiscordサーバー

貢献したいですか？TheBlokeのPatreonページ

TheBlokeのLLMの仕事は、andreessen horowitz (a16z)からの助成金によって寛大に支援されています

🚀 クイックスタート

このモデルは、GPTQ形式で提供されており、様々な推論サーバーやWeb UIで使用できます。以下に、ダウンロードと使用方法の詳細を説明します。

✨ 主な機能

複数のGPTQパラメータの組み合わせが提供され、ハードウェアと要件に合わせて最適なものを選ぶことができます。
様々な推論サーバーやWeb UIと互換性があります。

📦 インストール

text-generation-webuiでのダウンロード

mainブランチからダウンロードするには、「Download model」ボックスにTheBloke/LLaMA2-13B-Tiefighter-GPTQを入力します。
他のブランチからダウンロードするには、ダウンロード名の末尾に:branchnameを追加します。例えば、TheBloke/LLaMA2-13B-Tiefighter-GPTQ:gptq-4bit-32g-actorder_True

コマンドラインからのダウンロード

huggingface-hub Pythonライブラリを使用することをおすすめします。

pip3 install huggingface-hub

mainブランチをLLaMA2-13B-Tiefighter-GPTQというフォルダにダウンロードするには、以下のコマンドを実行します。

mkdir LLaMA2-13B-Tiefighter-GPTQ
huggingface-cli download TheBloke/LLaMA2-13B-Tiefighter-GPTQ --local-dir LLaMA2-13B-Tiefighter-GPTQ --local-dir-use-symlinks False

異なるブランチからダウンロードするには、--revisionパラメータを追加します。

mkdir LLaMA2-13B-Tiefighter-GPTQ
huggingface-cli download TheBloke/LLaMA2-13B-Tiefighter-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir LLaMA2-13B-Tiefighter-GPTQ --local-dir-use-symlinks False

💻 使用例

text-generation-webuiでの使用方法

Modelタブをクリックします。
Download custom model or LoRAの下に、TheBloke/LLaMA2-13B-Tiefighter-GPTQを入力します。
- 特定のブランチからダウンロードするには、例えばTheBloke/LLaMA2-13B-Tiefighter-GPTQ:gptq-4bit-32g-actorder_Trueと入力します。
- 各オプションのブランチのリストについては、上記の「Provided Files」を参照してください。
Downloadをクリックします。
モデルのダウンロードが開始されます。完了すると「Done」と表示されます。
左上のModelの横にある更新アイコンをクリックします。
Modelのドロップダウンで、先ほどダウンロードしたモデルLLaMA2-13B-Tiefighter-GPTQを選択します。
モデルが自動的にロードされ、使用可能になります！
カスタム設定が必要な場合は、設定してから右上のSave settings for this modelをクリックし、続いてReload the Modelをクリックします。
- 手動でGPTQパラメータを設定する必要はなく、してはいけません。これらはquantize_config.jsonファイルから自動的に設定されます。
準備ができたら、Text Generationタブをクリックし、プロンプトを入力して始めましょう！

Text Generation Inference (TGI)からの使用方法

TGIバージョン1.1.0以上の使用をおすすめします。公式のDockerコンテナは、ghcr.io/huggingface/text-generation-inference:1.1.0です。

例のDockerパラメータ:

--model-id TheBloke/LLaMA2-13B-Tiefighter-GPTQ --port 3000 --quantize gptq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096

TGIとやり取りするための例のPythonコード（huggingface-hub 0.17.0以上が必要）:

pip3 install huggingface-hub

from huggingface_hub import InferenceClient

endpoint_url = "https://your-endpoint-url-here"

prompt = "Tell me about AI"
prompt_template=f'''### Instruction: 
{prompt}
### Response:
'''

client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
                                  max_new_tokens=128,
                                  do_sample=True,
                                  temperature=0.7,
                                  top_p=0.95,
                                  top_k=40,
                                  repetition_penalty=1.1)

print(f"Model output: {response}")

Pythonコードからの使用方法

必要なパッケージのインストール

Transformers 4.33.0以上、Optimum 1.12.0以上、およびAutoGPTQ 0.4.2以上が必要です。

pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/  # CUDA 11.7の場合はcu117を使用

AutoGPTQを事前構築のホイールを使用してインストールする際に問題がある場合は、代わりにソースからインストールします。

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .

以下のコードを使用できます

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/LLaMA2-13B-Tiefighter-GPTQ"
# 別のブランチを使用するには、revisionを変更します
# 例: revision="gptq-4bit-32g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision="main")

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

prompt = "Tell me about AI"
prompt_template=f'''### Instruction: 
{prompt}
### Response:
'''

print("\n\n*** Generate:")

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(input_ids, max_new_tokens=128, do_sample=True, temperature=0.7, top_p=0.95, top_k=40, repetition_penalty=1.1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(f"Model output: {generated_text}")

📚 詳細ドキュメント

説明

このリポジトリには、KoboldAIのLlama2 13B TiefighterのGPTQモデルファイルが含まれています。

複数のGPTQパラメータの組み合わせが提供されており、以下の「Provided Files」で提供されるオプション、それらのパラメータ、および作成に使用されたソフトウェアの詳細を確認できます。

利用可能なリポジトリ

プロンプトテンプレート: Alpaca-Tiefighter

### Instruction: 
{prompt}
### Response:

互換性のあるクライアント/サーバー

これらのGPTQは、以下の推論サーバー/ウェブUIで動作することが知られています。

提供されるファイルとGPTQパラメータ

複数の量子化パラメータが提供されており、ハードウェアと要件に最適なものを選ぶことができます。

それぞれの個別の量子化は異なるブランチにあります。異なるブランチから取得する方法については、以下を参照してください。

ほとんどのGPTQファイルはAutoGPTQで作成されています。Mistralモデルは現在、Transformersで作成されています。

GPTQパラメータの説明

Bits: 量子化されたモデルのビットサイズ。
GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。「None」は可能な最低値です。
Act Order: TrueまたはFalse。desc_actとも呼ばれます。Trueの場合、より高い量子化精度が得られます。一部のGPTQクライアントでは、Act Orderとグループサイズを使用するモデルに問題がありましたが、現在は一般的に解決されています。
Damp %: 量子化のためにサンプルが処理される方法に影響を与えるGPTQパラメータ。デフォルトは0.01ですが、0.1の方がわずかに精度が向上します。
GPTQデータセット: 量子化中に使用されるキャリブレーションデータセット。モデルのトレーニングにより適したデータセットを使用すると、量子化精度を向上させることができます。GPTQキャリブレーションデータセットは、モデルのトレーニングに使用されるデータセットとは異なることに注意してください。トレーニングデータセットの詳細については、元のモデルリポジトリを参照してください。
シーケンス長: 量子化に使用されるデータセットシーケンスの長さ。理想的には、モデルのシーケンス長と同じです。一部の非常に長いシーケンスモデル（16K以上）では、より短いシーケンス長を使用する必要がある場合があります。ただし、シーケンス長を短くすると、量子化されたモデルのシーケンス長が制限されるわけではありません。長い推論シーケンスでの量子化精度にのみ影響します。
ExLlama互換性: このファイルをExLlamaでロードできるかどうか。現在、ExLlamaは4ビットのLlamaモデルのみをサポートしています。

ブランチ	ビット数	GS	Act Order	Damp %	GPTQデータセット	シーケンス長	サイズ	ExLlama	説明
main	4	128	Yes	0.1	wikitext	4096	7.26 GB	Yes	4ビット、Act Order付き、グループサイズ128g。64gよりもVRAMの使用量が少ないですが、精度はわずかに低くなります。
gptq-4bit-32g-actorder_True	4	32	Yes	0.1	wikitext	4096	8.00 GB	Yes	4ビット、Act Order付き、グループサイズ32g。可能な限り高い推論品質を提供しますが、最大のVRAM使用量になります。
gptq-8bit--1g-actorder_True	8	None	Yes	0.1	wikitext	4096	13.36 GB	No	8ビット、Act Order付き。グループサイズなしで、VRAM要件を低く抑えます。
gptq-8bit-128g-actorder_True	8	128	Yes	0.1	wikitext	4096	13.65 GB	No	8ビット、グループサイズ128gで推論品質を向上させ、Act Orderでさらに精度を高めます。
gptq-8bit-32g-actorder_True	8	32	Yes	0.1	wikitext	4096	14.54 GB	No	8ビット、グループサイズ32gとAct Orderで最大の推論品質を実現します。
gptq-4bit-64g-actorder_True	4	64	Yes	0.1	wikitext	4096	7.51 GB	Yes	4ビット、Act Order付き、グループサイズ64g。32gよりもVRAMの使用量が少ないですが、精度はわずかに低くなります。