Chronoboros - 33B - GPTQオープンソースモデル - 柔軟な回答で多様な質問ニーズを満たす

ホーム

Chronoboros 33B GPTQ

TheBlokeによって開発

Chronoboros 33BはAiroboros-33B-1.4とChronos-33Bの50/50平均重み付け統合モデルで、高い柔軟性を持つが回答スタイルの変動が大きい。

大規模言語モデル

Transformers

オープンソースライセンス:その他 #マルチタスク混合モデル #高柔軟性生成 #クリエイティブコンテンツ作成

ダウンロード数 84

リリース時間 : 7/10/2023

モデル概要

これはAiroborosとChronosの2つの33Bパラメータモデルの特徴を組み合わせた混合モデルで、多様なタスクを処理可能だが出力の一貫性は低い。

モデル特徴

混合モデルの利点

2つの異なる33Bパラメータモデルの長所を組み合わせ、より広範な能力カバレッジを提供

高い柔軟性

様々なタイプのタスクやプロンプトに適応可能

多様な出力

同じプロンプトに対しても異なる回答を生成可能で、クリエイティブな出力が必要な場面に適している

モデル能力

テキスト生成

指示追従

クリエイティブライティング

質問応答システム

使用事例

クリエイティブコンテンツ生成

ストーリー創作

創造的な物語や小説コンテンツを生成

多様なストーリー展開を生み出せる

対話システム

オープンドメイン対話

オープンな対話交流を行う

回答は多様だが一貫性に欠ける場合がある

🚀 Chronoboros 33B - GPTQ

Chronoboros 33B - GPTQは、Henk717氏によって開発されたChronoboros 33BモデルのGPTQ量子化バージョンです。このモデルには複数の量子化パラメータが用意されており、ユーザーのハードウェアと要件に合わせて最適なものを選択できます。

チャットとサポート: TheBlokeのDiscordサーバー

貢献したい方はこちら: TheBlokeのPatreonページ

TheBlokeのLLMに関する作業は、andreessen horowitz (a16z)からの助成金によって支援されています。

モデル情報

属性	详情
模型类型	Llama
训练数据	詳細は元のモデルリポジトリを参照してください。

モデル作成者: Henky!!
オリジナルモデル: Chronoboros 33B

🚀 クイックスタート

このセクションでは、Chronoboros 33B - GPTQモデルの基本的な使い方を説明します。

✨ 主な機能

複数の量子化パラメータが用意されており、ハードウェアと要件に合わせて最適なものを選択できます。
複数の推論ソフトウェアと互換性があります。

📦 インストール

Pythonコードから使用する場合

必要なパッケージをインストールする必要があります。

pip3 install transformers>=4.32.0 optimum>=1.12.0
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/  # CUDA 11.7の場合はcu117を使用

AutoGPTQの事前構築済みホイールを使用してインストールできない場合は、ソースからインストールしてください。

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
pip3 install .

CodeLlamaモデルの場合

Transformers 4.33.0以上を使用する必要があります。

pip3 uninstall -y transformers
pip3 install git+https://github.com/huggingface/transformers.git

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/Chronoboros-33B-GPTQ"
# 別のブランチを使用する場合は、revisionを変更してください
# 例: revision="main"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision="main")

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:

'''

print("\n\n*** Generate:")

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))

# Inference can also be done using transformers' pipeline

print("*** Pipeline:")
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7,
    top_p=0.95,
    top_k=40,
    repetition_penalty=1.1
)

print(pipe(prompt_template)[0]['generated_text'])

📚 ドキュメント

説明

このリポジトリには、Henk717のChronoboros 33BのGPTQモデルファイルが含まれています。

複数のGPTQパラメータの組み合わせが提供されており、以下の「提供されるファイル」で各オプションの詳細、パラメータ、および作成に使用されたソフトウェアについて説明します。

利用可能なリポジトリ

プロンプトテンプレート: Alpaca

Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:

提供されるファイルとGPTQパラメータ

複数の量子化パラメータが提供されており、ハードウェアと要件に合わせて最適なものを選択できます。

各量子化は異なるブランチに格納されています。異なるブランチから取得する方法については、以下を参照してください。

最近のGPTQファイルはすべてAutoGPTQで作成されており、mainブランチ以外のすべてのファイルもAutoGPTQで作成されています。2023年8月以前にアップロードされたmainブランチのファイルは、GPTQ-for-LLaMaで作成されています。

GPTQパラメータの説明

Bits: 量子化されたモデルのビットサイズ。
GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。「None」は最小値です。
Act Order: TrueまたはFalse。desc_actとも呼ばれます。Trueの場合、量子化精度が向上します。一部のGPTQクライアントでは、Act OrderとGroup Sizeを併用したモデルに問題がありましたが、現在はほぼ解決されています。
Damp %: 量子化のためにサンプルを処理する方法に影響を与えるGPTQパラメータ。デフォルトは0.01ですが、0.1の方がわずかに精度が向上します。
GPTQデータセット: 量子化に使用されるデータセット。モデルの学習に適したデータセットを使用すると、量子化精度が向上します。ただし、GPTQデータセットはモデルの学習に使用されるデータセットとは異なります。学習データセットの詳細については、元のモデルリポジトリを参照してください。
シーケンス長: 量子化に使用されるデータセットシーケンスの長さ。理想的には、モデルのシーケンス長と同じです。一部の非常に長いシーケンスモデル（16K以上）では、より短いシーケンス長を使用する必要がある場合があります。ただし、シーケンス長が短い場合でも、量子化されたモデルのシーケンス長は制限されません。長い推論シーケンスでの量子化精度にのみ影響します。
ExLlama互換性: このファイルがExLlamaで読み込めるかどうか。現在、ExLlamaは4ビットのLlamaモデルのみをサポートしています。

ブランチ	Bits	GS	Act Order	Damp %	GPTQデータセット	Seq Len	サイズ	ExLlama	説明
main	4	None	Yes	0.01	wikitext	2048	16.94 GB	Yes	4ビット、Act Orderあり。グループサイズなしで、VRAMの使用量を抑えます。
gptq-4bit-32g-actorder_True	4	32	Yes	0.01	wikitext	2048	19.44 GB	Yes	4ビット、Act Orderとグループサイズ32gあり。最高の推論品質が得られますが、VRAMの使用量が最大になります。
gptq-4bit-64g-actorder_True	4	64	Yes	0.01	wikitext	2048	18.18 GB	Yes	4ビット、Act Orderとグループサイズ64gあり。32gよりもVRAMの使用量が少なくなりますが、精度はわずかに低下します。
gptq-4bit-128g-actorder_True	4	128	Yes	0.01	wikitext	2048	17.55 GB	Yes	4ビット、Act Orderとグループサイズ128gあり。64gよりもさらにVRAMの使用量が少なくなりますが、精度はわずかに低下します。
gptq-8bit--1g-actorder_True	8	None	Yes	0.01	wikitext	2048	32.99 GB	No	8ビット、Act Orderあり。グループサイズなしで、VRAMの使用量を抑えます。
gptq-8bit-128g-actorder_False	8	128	No	0.01	wikitext	2048	33.73 GB	No	8ビット、グループサイズ128gで推論品質を向上させ、Act Orderを使用せずにAutoGPTQの速度を向上させます。
gptq-3bit--1g-actorder_True	3	None	Yes	0.01	wikitext	2048	12.92 GB	No	3ビット、Act Orderあり、グループサイズなし。最小のVRAM使用量ですが、3ビット128gよりも品質が低い場合があります。
gptq-3bit-128g-actorder_False	3	128	No	0.01	wikitext	2048	13.51 GB	No	3ビット、グループサイズ128gあり、act-orderなし。3ビットNoneよりもわずかにVRAMの使用量が多くなります。

ブランチからのダウンロード方法

text-generation-webuiでは、ダウンロード名の末尾に:branchを追加できます。例: TheBloke/Chronoboros-33B-GPTQ:main
Gitを使用する場合は、以下のコマンドでブランチをクローンできます。

git clone --single-branch --branch main https://huggingface.co/TheBloke/Chronoboros-33B-GPTQ

Python Transformersコードでは、ブランチはrevisionパラメータで指定します。以下を参照してください。

text-generation-webuiでの簡単なダウンロードと使用方法

text-generation-webuiの最新バージョンを使用していることを確認してください。

手動インストール方法を熟知していない限り、text-generation-webuiのワンクリックインストーラーを使用することを強くお勧めします。

Model tabをクリックします。
Download custom model or LoRAの下に、TheBloke/Chronoboros-33B-GPTQを入力します。

特定のブランチからダウンロードする場合は、例えばTheBloke/Chronoboros-33B-GPTQ:mainのように入力します。
各オプションのブランチのリストについては、上記の「提供されるファイル」を参照してください。

Downloadをクリックします。
モデルのダウンロードが開始されます。完了すると「Done」と表示されます。
左上のModelの横にある更新アイコンをクリックします。
Modelのドロップダウンメニューから、先ほどダウンロードしたモデルChronoboros-33B-GPTQを選択します。
モデルが自動的にロードされ、使用可能になります。
カスタム設定が必要な場合は、設定を行ってから右上のSave settings for this modelをクリックし、続いてReload the Modelをクリックします。

手動でGPTQパラメータを設定する必要はなく、しかも設定しないでください。これらはquantize_config.jsonファイルから自動的に設定されます。

準備ができたら、Text Generation tabをクリックし、プロンプトを入力して使用を開始します。

PythonコードからこのGPTQモデルを使用する方法

必要なパッケージのインストール

Transformers 4.32.0以上、Optimum 1.12.0以上、およびAutoGPTQ 0.4.2以上が必要です。

pip3 install transformers>=4.32.0 optimum>=1.12.0
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/  # CUDA 11.7の場合はcu117を使用

AutoGPTQの事前構築済みホイールを使用してインストールできない場合は、ソースからインストールしてください。

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
pip3 install .

CodeLlamaモデルの場合

Transformers 4.33.0以上を使用する必要があります。

pip3 uninstall -y transformers
pip3 install git+https://github.com/huggingface/transformers.git

使用コード

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/Chronoboros-33B-GPTQ"
# 別のブランチを使用する場合は、revisionを変更してください
# 例: revision="main"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision="main")

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:

'''

print("\n\n*** Generate:")

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))

# Inference can also be done using transformers' pipeline

print("*** Pipeline:")
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7,
    top_p=0.95,
    top_k=40,
    repetition_penalty=1.1
)

print(pipe(prompt_template)[0]['generated_text'])

🔧 技術詳細

提供されるファイルは、Transformersを介しても直接AutoGPTQを使用しても、AutoGPTQで動作することがテストされています。Occ4m's GPTQ-for-LLaMa forkでも動作するはずです。
ExLlamaは4ビットのLlamaモデルと互換性があります。各ファイルの互換性については、上記の「提供されるファイル」の表を参照してください。
Huggingface Text Generation Inference (TGI)はすべてのGPTQモデルと互換性があります。

📄 ライセンス

Other

Discord

これらのモデルやAI全般についてのさらなるサポートや議論に参加するには、以下に参加してください。

TheBloke AI's Discord server

謝辞と貢献方法

chirper.aiチームに感謝します！

gpus.llm-utils.orgのClayに感謝します！

多くの人から貢献できるかどうか尋ねられています。私はモデルを提供し、人々を助けることが好きであり、さらに多くの時間を費やし、微調整/トレーニングなどの新しいプロジェクトにも取り組みたいと思っています。

貢献できる方は、大いに歓迎します。これにより、より多くのモデルを提供し、新しいAIプロジェクトの開発を開始するのに役立ちます。

寄付者は、すべてのAI/LLM/モデルに関する質問やリクエストに対する優先サポート、プライベートDiscordルームへのアクセス、その他の特典を受けることができます。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別な感謝: Aemon Algiz。

Patreonでの特別な言及: Alicia Loh, Stephen Murray, K, Ajan Kanaga, RoA, Magnesian, Deo Leter, Olakabola, Eugene Pentland, zynix, Deep Realms, Raymond Fosdick, Elijah Stavena, Iucharbius, Erik Bjäreholt, Luis Javier Navarrete Lozano, Nicholas, theTransient, John Detwiler, alfie_i, knownsqashed, Mano Prime, Willem Michiel, Enrico Ros, LangChain4j, OG, Michael Dempsey, Pierre Kircher, Pedro Madruga, James Bentley, Thomas Belote, Luke @flexchar, Leonard Tan, Johann-Peter Hartmann, Illia Dulskyi, Fen Risland, Chadd, S_X, Jeff Scroggin, Ken Nordquist, Sean Connelly, Artur Olbinski, Swaroop Kallakuri, Jack West, Ai Maven, David Ziegler, Russ Johnson, transmissions 11, John Villwock, Alps Aficionado, Clay Pascal, Viktor Bowallius, Subspace Studios, Rainer Wilmers, Trenton Dambrowitz, vamX, Michael Levine, 준교 김, Brandon Frisco, Kalila, Trailburnt, Randy H, Talal Aujan, Nathan Dryer, Vadim, 阿明, ReadyPlayerEmma, Tiffany J. Kim, George Stoitzev, Spencer Kim, Jerry Meng, Gabriel Tamborski, Cory Kujawski, Jeffrey Morgan, Spiking Neurons AB, Edmond Seymore, Alexandros Triantafyllidis, Lone Striker, Cap'n Zoog, Nikolai Manek, danny, ya boyyy, Derek Yates, usrbinkat, Mandus, TL, Nathan LeClaire, subjectnull, Imad Khwaja, webtim, Raven Klaugh, Asp the Wyvern, Gabriel Puliatti, Caitlyn Gatomon, Jos