storytime-13B-GPTQオープンソース大規模言語モデル - 無料デプロイで高品質な中国語ストーリー創作をサポート

ホーム

Storytime 13B GPTQ

TheBlokeによって開発

Storytime 13B はLLaMAアーキテクチャに基づく大規模言語モデルで、中国語テキスト生成タスク、特にストーリー作成に特化しています。

大規模言語モデル

Transformers

英語#ストーリー生成 #長文処理 #中国語サポート

ダウンロード数 134

リリース時間 : 9/23/2023

モデル概要

このモデルはCharles Goddardによって開発され、LLaMAアーキテクチャに基づき、中国語テキスト生成用に最適化されています。Alpacaスタイルのプロンプトテンプレートを使用しており、クリエイティブライティングやストーリー生成タスクに適しています。

モデル特徴

中国語最適化

中国語テキスト生成に特化して最適化されています

ストーリー作成

クリエイティブライティングやストーリー生成タスクに特に適しています

Alpacaプロンプトテンプレート

標準化されたAlpacaスタイルのプロンプトテンプレートを使用しており、使いやすいです

マルチ量子化バージョン

様々なGPTQ量子化バージョンを提供し、異なるハードウェア要件に対応します

モデル能力

中国語テキスト生成

ストーリー作成

命令追従

クリエイティブライティング

使用事例

コンテンツ作成

ストーリー生成

ユーザーが提供したプロンプトに基づいて完全なストーリーを生成します

一貫性があり創造的なストーリー展開を生成できます

クリエイティブライティング支援

作家がライターズブロックを克服し、創造的なインスピレーションを得るのを支援します

多様な執筆アイデアやプロット展開の提案を提供します

教育

ライティング教育

言語学習におけるライティング練習に使用されます

学生が中国語ライティングスキルを練習するのを支援します

🚀 Storytime 13B - GPTQ

このモデルは、Charles Goddardによって開発されたStorytime 13BのGPTQモデルファイルを提供します。複数のGPTQパラメータのパーミュテーションが用意されており、ハードウェアと要件に最適なものを選ぶことができます。

チャットとサポート: TheBlokeのDiscordサーバー

貢献したい方はこちら: TheBlokeのPatreonページ

TheBlokeのLLMに関する作業は、andreessen horowitz (a16z)からの助成金によって支援されています。

📚 ドキュメント

モデル情報

モデル作成者: Charles Goddard
オリジナルモデル: Storytime 13B

説明

このリポジトリには、Charles GoddardのStorytime 13BのGPTQモデルファイルが含まれています。複数のGPTQパラメータのパーミュテーションが提供されており、以下の「提供されているファイルとGPTQパラメータ」で各オプションの詳細、パラメータ、および作成に使用されたソフトウェアについて説明しています。

利用可能なリポジトリ

プロンプトテンプレート: Alpaca

以下はタスクを説明する指示です。要求を適切に完了する応答を書いてください。

### 指示:
{prompt}

### 応答:

提供されているファイルとGPTQパラメータ

複数の量子化パラメータが提供されており、ハードウェアと要件に最適なものを選ぶことができます。各個別の量子化は異なるブランチにあります。異なるブランチから取得する方法については、以下を参照してください。最近のすべてのGPTQファイルはAutoGPTQで作成されており、mainブランチ以外のすべてのファイルはAutoGPTQで作成されています。2023年8月より前にアップロードされたmainブランチのファイルは、GPTQ-for-LLaMaで作成されています。

GPTQパラメータの説明

ビット数: 量子化されたモデルのビットサイズ。
GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。「None」は可能な最低値です。
Act Order: 真または偽。desc_actとも呼ばれます。真の場合、より高い量子化精度が得られます。一部のGPTQクライアントでは、Act Orderとグループサイズを使用するモデルに問題がありましたが、現在は一般的に解決されています。
Damp %: 量子化のためにサンプルが処理される方法に影響を与えるGPTQパラメータ。デフォルトは0.01ですが、0.1の方がわずかに精度が向上します。
GPTQデータセット: 量子化中に使用されるキャリブレーションデータセット。モデルのトレーニングに適したデータセットを使用すると、量子化精度を向上させることができます。GPTQキャリブレーションデータセットは、モデルのトレーニングに使用されるデータセットとは異なることに注意してください。トレーニングデータセットの詳細については、元のモデルリポジトリを参照してください。
シーケンス長: 量子化に使用されるデータセットシーケンスの長さ。理想的には、これはモデルのシーケンス長と同じです。一部の非常に長いシーケンスモデル（16K以上）では、より短いシーケンス長を使用する必要がある場合があります。ただし、短いシーケンス長は量子化されたモデルのシーケンス長を制限するものではありません。長い推論シーケンスでの量子化精度にのみ影響します。
ExLlama互換性: このファイルがExLlamaでロードできるかどうか。現在、ExLlamaは4ビットのLlamaモデルのみをサポートしています。

ブランチ	ビット数	GS	Act Order	Damp %	GPTQデータセット	シーケンス長	サイズ	ExLlama	説明
main	4	128	はい	0.1	wikitext	4096	7.26 GB	はい	4ビット、Act Orderとグループサイズ128g。64gよりもVRAMの使用量が少ないですが、精度はわずかに低くなります。
gptq-4-32g-actorder_True	4	32	はい	0.1	wikitext	4096	8.00 GB	はい	4ビット、Act Orderとグループサイズ32g。最大の推論品質を提供しますが、VRAMの使用量が最大になります。
gptq-8--1g-actorder_True	8	None	はい	0.1	wikitext	4096	13.36 GB	いいえ	8ビット、Act Order。グループサイズなし、VRAMの要件を下げます。
gptq-8-128g-actorder_True	8	128	はい	0.1	wikitext	4096	13.65 GB	いいえ	8ビット、グループサイズ128gでより高い推論品質、Act Orderでさらに高い精度。
gptq-8-32g-actorder_True	8	32	はい	0.1	wikitext	4096	14.54 GB	いいえ	8ビット、グループサイズ32gとAct Orderで最大の推論品質。
gptq-4-64g-actorder_True	4	64	はい	0.1	wikitext	4096	7.51 GB	はい	4ビット、Act Orderとグループサイズ64g。32gよりもVRAMの使用量が少ないですが、精度はわずかに低くなります。

ダウンロード方法（ブランチからのダウンロードを含む）

text-generation-webuiでのダウンロード

mainブランチからダウンロードするには、「モデルをダウンロード」ボックスにTheBloke/storytime-13B-GPTQを入力します。他のブランチからダウンロードするには、ダウンロード名の末尾に:branchnameを追加します。例えば、TheBloke/storytime-13B-GPTQ:gptq-4-32g-actorder_Trueのようにします。

コマンドラインからのダウンロード

huggingface-hub Pythonライブラリの使用をおすすめします。

pip3 install huggingface-hub

mainブランチをstorytime-13B-GPTQというフォルダにダウンロードするには、以下のコマンドを実行します。

mkdir storytime-13B-GPTQ
huggingface-cli download TheBloke/storytime-13B-GPTQ --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False

異なるブランチからダウンロードするには、--revisionパラメータを追加します。

mkdir storytime-13B-GPTQ
huggingface-cli download TheBloke/storytime-13B-GPTQ --revision gptq-4-32g-actorder_True --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False

huggingface-cliダウンロードの高度な使用方法

--local-dir-use-symlinks Falseパラメータを削除すると、ファイルは代わりに中央のHuggingfaceキャッシュディレクトリ（Linuxのデフォルトの場所は~/.cache/huggingface）に保存され、指定された--local-dirにシンボリックリンクが追加され、キャッシュ内の実際の場所を指します。これにより、中断されたダウンロードを再開でき、ディスク上の複数の場所にリポジトリをすばやくクローンでき、再ダウンロードをトリガーすることなく済みます。ただし、これがデフォルトオプションとしてリストされていない理由は、ファイルがキャッシュフォルダに隠されるため、ディスクスペースの使用場所がわかりにくく、ダウンロードしたモデルを削除する際にクリーンアップが難しくなるからです。

キャッシュの場所は、HF_HOME環境変数とhuggingface-cliの--cache-dirパラメータで変更できます。huggingface-cliでダウンロードするための詳細なドキュメントについては、HF -> Hub Python Library -> Download files -> Download from the CLIを参照してください。高速接続（1Gbit/s以上）でのダウンロードを高速化するには、hf_transferをインストールします。

pip3 install hf_transfer

そして、環境変数HF_HUB_ENABLE_HF_TRANSFERを1に設定します。

mkdir storytime-13B-GPTQ
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/storytime-13B-GPTQ --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False

Windowsコマンドラインユーザーは、ダウンロードコマンドの前にset HF_HUB_ENABLE_HF_TRANSFER=1を実行して環境変数を設定できます。

`git`を使用したダウンロード（推奨しません）

gitで特定のブランチをクローンするには、次のようなコマンドを使用します。

git clone --single-branch --branch gptq-4-32g-actorder_True https://huggingface.co/TheBloke/storytime-13B-GPTQ

HFリポジトリでGitを使用することは強くお勧めしません。huggingface-hubを使用するよりもはるかに遅く、モデルファイルを2回保存する必要があるため（意図したターゲットフォルダと.gitフォルダの両方に保存される）、ディスクスペースを2倍使います。

text-generation-webuiでこのモデルを簡単にダウンロードして使用する方法

text-generation-webuiの最新バージョンを使用していることを確認してください。手動インストール方法をよく理解していない限り、text-generation-webuiのワンクリックインストーラーの使用を強くおすすめします。

モデルタブをクリックします。
カスタムモデルまたはLoRAをダウンロードの下に、TheBloke/storytime-13B-GPTQを入力します。

特定のブランチからダウンロードするには、例えばTheBloke/storytime-13B-GPTQ:gptq-4-32g-actorder_Trueのように入力します。
各オプションのブランチのリストについては、上記の「提供されているファイルとGPTQパラメータ」を参照してください。

ダウンロードをクリックします。
モデルのダウンロードが開始されます。完了すると「完了」と表示されます。
左上のモデルの横にある更新アイコンをクリックします。
モデルのドロップダウンで、先ほどダウンロードしたモデルstorytime-13B-GPTQを選択します。
モデルは自動的にロードされ、使用可能な状態になります！
カスタム設定が必要な場合は、設定を行ってから右上の「このモデルの設定を保存」をクリックし、続いて「モデルを再読み込み」をクリックします。

手動でGPTQパラメータを設定する必要はなく、設定しないでください。これらはquantize_config.jsonファイルから自動的に設定されます。

準備ができたら、テキスト生成タブをクリックし、プロンプトを入力して開始します！

PythonコードからこのGPTQモデルを使用する方法

必要なパッケージのインストール

Transformers 4.33.0以降、Optimum 1.12.0以降、およびAutoGPTQ 0.4.2以降が必要です。

pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/  # CUDA 11.7の場合はcu117を使用

事前構築済みのホイールを使用してAutoGPTQをインストールする際に問題がある場合は、代わりにソースからインストールします。

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .

コードの使用例

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/storytime-13B-GPTQ"
# 別のブランチを使用する場合は、revisionを変更します。
# 例: revision="gptq-4-32g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision="main")

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:
'''

print("\n\n*** Generate:")

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))

# 推論は、transformersのpipelineを使用しても行えます。

print("*** Pipeline:")
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7,
    top_p=0.95,
    top_k=40,
    repetition_penalty=1.1
)

print(pipe(prompt_template)[0]['generated_text'])