Llama-2-13B-chat-GPTQオープンソース対話大規模モデル - 無料でデプロイ可能、英語のテキスト生成をサポート

ホーム

Llama 2 13B Chat GPTQ

TheBlokeによって開発

Llama 2 13B Chat はMetaが開発した大規模言語モデルで、対話タスクに特化しており、130億のパラメータを持ち、英語テキスト生成をサポートしています。

大規模言語モデル

Transformers

英語#マルチターン対話最適化 #安全なコンテンツ生成 #13Bパラメータ

ダウンロード数 7,821

リリース時間 : 7/18/2023

モデル概要

これはLlama 2アーキテクチャに基づく130億パラメータの対話モデルで、安全で役立つ対話インタラクションのために最適化されています。

モデル特徴

安全な対話

モデルは有害、非倫理的、または偏見のあるコンテンツの生成を避けるように特別に訓練されています

高品質な量子化

さまざまなGPTQ量子化オプションを提供し、推論品質とVRAM使用量のバランスを取ります

長いコンテキストサポート

4096トークンのコンテキスト長をサポートします

モデル能力

対話生成

テキスト補完

質問応答システム

コンテンツ作成

使用事例

カスタマーサポートシステム

インテリジェントカスタマーサポートアシスタント

顧客の問い合わせやよくある質問への対応に使用されます

正確で安全な回答を提供します

教育

学習アシスタント

学生の学習に関する質問に答えるのに役立ちます

教育的で安全な説明を提供します

🚀 Llama 2 13B Chat - GPTQ

このリポジトリは、MetaのLlama 2 13B-chatのGPTQモデルファイルを提供します。複数のGPTQパラメータの組み合わせが用意されており、ハードウェアと要件に合わせて最適なものを選択できます。

🚀 クイックスタート

チャットとサポート: TheBlokeのDiscordサーバー

貢献したい方はこちら: TheBlokeのPatreonページ

TheBlokeのLLM関連の作業は、andreessen horowitz (a16z)からの助成金によって支援されています。

モデル作成者: Meta Llama 2
オリジナルモデル: Llama 2 13B Chat

📚 ドキュメント

説明

このリポジトリには、MetaのLlama 2 13B-chatのGPTQモデルファイルが含まれています。複数のGPTQパラメータの組み合わせが提供されており、以下の「提供されるファイル」で各オプションの詳細、パラメータ、および作成に使用されたソフトウェアについて説明しています。

利用可能なリポジトリ

プロンプトテンプレート: Llama-2-Chat

[INST] <<SYS>>
あなたは役立ち、礼儀正しく、正直なアシスタントです。できる限り有益な回答をしながら、安全を確保してください。回答には、有害な、非倫理的な、人種差別的な、性差別的な、有毒な、危険な、または違法な内容を含めないでください。回答が社会的に偏見がなく、前向きな性質であることを確認してください。質問が意味を成さない場合、または事実的に一貫性がない場合、正しくない回答をする代わりに、その理由を説明してください。質問の答えが分からない場合は、誤った情報を共有しないでください。
<</SYS>>
{prompt}[/INST]

提供されるファイルとGPTQパラメータ

複数の量子化パラメータが提供されており、ハードウェアと要件に最適なものを選択できます。各量子化は異なるブランチにあります。異なるブランチから取得する方法については、以下を参照してください。

最近のすべてのGPTQファイルはAutoGPTQで作成されており、非メインブランチのすべてのファイルもAutoGPTQで作成されています。2023年8月より前にアップロードされたmainブランチのファイルは、GPTQ-for-LLaMaで作成されています。

GPTQパラメータの説明

Bits: 量子化モデルのビットサイズ。
GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。「None」は最低の値です。
Act Order: TrueまたはFalse。desc_actとも呼ばれます。Trueの場合、より高い量子化精度が得られます。一部のGPTQクライアントでは、Act Orderとグループサイズを併用したモデルに問題がありましたが、現在はほとんど解決されています。
Damp %: 量子化のためにサンプルが処理される方法に影響を与えるGPTQパラメータです。デフォルトは0.01ですが、0.1の方がわずかに精度が向上します。
GPTQデータセット: 量子化に使用されるデータセット。モデルの学習に適したデータセットを使用すると、量子化精度が向上します。GPTQデータセットは、モデルの学習に使用されるデータセットとは異なることに注意してください。学習データセットの詳細については、元のモデルリポジトリを参照してください。
シーケンス長: 量子化に使用されるデータセットシーケンスの長さ。理想的には、モデルのシーケンス長と同じです。一部の非常に長いシーケンスモデル（16+K）では、より短いシーケンス長を使用する必要がある場合があります。ただし、短いシーケンス長は量子化モデルのシーケンス長を制限するものではありません。長い推論シーケンスでの量子化精度にのみ影響します。
ExLlama互換性: このファイルがExLlamaで読み込めるかどうか。現在、ExLlamaは4ビットのLlamaモデルのみをサポートしています。

ブランチ	Bits	GS	Act Order	Damp %	GPTQデータセット	シーケンス長	サイズ	ExLlama	説明
main	4	128	いいえ	0.01	wikitext	4096	7.26 GB	はい	4ビット、Act Orderなし、グループサイズ128g。
gptq-4bit-32g-actorder_True	4	32	はい	0.01	wikitext	4096	8.00 GB	はい	4ビット、Act Orderあり、グループサイズ32g。最大のVRAM使用量で、最高の推論品質を提供します。
gptq-4bit-64g-actorder_True	4	64	はい	0.01	wikitext	4096	7.51 GB	はい	4ビット、Act Orderあり、グループサイズ64g。32gよりもVRAMの使用量が少ないが、精度はわずかに低い。
gptq-4bit-128g-actorder_True	4	128	はい	0.01	wikitext	4096	7.26 GB	はい	4ビット、Act Orderあり、グループサイズ128g。64gよりもさらにVRAMの使用量が少ないが、精度はわずかに低い。
gptq-8bit-128g-actorder_True	8	128	はい	0.01	wikitext	4096	13.65 GB	いいえ	8ビット、グループサイズ128gでより高い推論品質、Act Orderでさらに高い精度。
gptq-8bit-64g-actorder_True	8	64	はい	0.01	wikitext	4096	13.95 GB	いいえ	8ビット、グループサイズ64gとAct Orderでさらに高い推論品質。AutoGPTQ CUDAの速度が遅い。
gptq-8bit-128g-actorder_False	8	128	いいえ	0.01	wikitext	4096	13.65 GB	いいえ	8ビット、グループサイズ128gでより高い推論品質、Act OrderなしでAutoGPTQの速度を向上させます。
gptq-8bit--1g-actorder_True	8	なし	はい	0.01	wikitext	4096	13.36 GB	いいえ	8ビット、Act Orderあり。グループサイズなしで、VRAM要件を低く抑えます。

ブランチからのダウンロード方法

text-generation-webuiでは、ダウンロード名の末尾に:ブランチ名を追加できます。例えば、TheBloke/Llama-2-13B-chat-GPTQ:main
Gitを使用する場合は、次のコマンドでブランチをクローンできます。

git clone --single-branch --branch main https://huggingface.co/TheBloke/Llama-2-13B-chat-GPTQ

Python Transformersコードでは、ブランチはrevisionパラメータで指定します。以下を参照してください。

text-generation-webuiでこのモデルを簡単にダウンロードして使用する方法

最新バージョンのtext-generation-webuiを使用していることを確認してください。手動インストール方法を熟知していない限り、text-generation-webuiのワンクリックインストーラーを使用することを強くお勧めします。

モデルタブをクリックします。
カスタムモデルまたはLoRAをダウンロードの下に、TheBloke/Llama-2-13B-chat-GPTQを入力します。

特定のブランチからダウンロードする場合は、例えばTheBloke/Llama-2-13B-chat-GPTQ:mainのように入力します。
各オプションのブランチのリストについては、上記の「提供されるファイル」を参照してください。

ダウンロードをクリックします。
モデルのダウンロードが開始されます。完了すると「完了」と表示されます。
左上のモデルの横にある更新アイコンをクリックします。
モデルのドロップダウンメニューで、先ほどダウンロードしたモデルLlama-2-13B-chat-GPTQを選択します。
モデルは自動的に読み込まれ、使用可能になります。
カスタム設定が必要な場合は、設定を行ってから、右上のこのモデルの設定を保存をクリックし、続いてモデルを再読み込みをクリックします。

手動でGPTQパラメータを設定する必要はなく、設定しないでください。これらはquantize_config.jsonファイルから自動的に設定されます。

準備ができたら、テキスト生成タブをクリックし、プロンプトを入力して始めましょう！

PythonコードからこのGPTQモデルを使用する方法

必要なパッケージのインストール

Transformers 4.32.0以降、Optimum 1.12.0以降、およびAutoGPTQ 0.4.2以降が必要です。

pip3 install transformers>=4.32.0 optimum>=1.12.0
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/  # CUDA 11.7の場合はcu117を使用

事前構築済みのホイールを使用してAutoGPTQをインストールする際に問題が発生した場合は、代わりにソースからインストールしてください。

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
pip3 install .

CodeLlamaモデルのみ: Transformers 4.33.0以降を使用する必要があります。

このドキュメントを読んでいる時点で4.33.0がまだリリースされていない場合は、ソースからTransformersをインストールする必要があります。

pip3 uninstall -y transformers
pip3 install git+https://github.com/huggingface/transformers.git

次のコードを使用できます

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/Llama-2-13B-chat-GPTQ"
# 別のブランチを使用する場合は、revisionを変更します。
# 例: revision="main"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision="main")

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

prompt = "Tell me about AI"
prompt_template=f'''[INST] <<SYS>>
You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe.  Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature. If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information.
<</SYS>>
{prompt}[/INST]

'''

print("\n\n*** Generate:")

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))

# 推論は、transformersのpipelineを使用しても行えます。

print("*** Pipeline:")
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7,
    top_p=0.95,
    top_k=40,
    repetition_penalty=1.1
)

print(pipe(prompt_template)[0]['generated_text'])