モデル概要
モデル特徴
モデル能力
使用事例
🚀 NousResearchのNous-Hermes-13B GPTQ
これらのファイルは、NousResearchのNous-Hermes-13BのGPTQ 4ビットモデルファイルです。 GPTQ-for-LLaMaを使用して4ビットに量子化した結果です。
✨ 主な機能
利用可能な他のリポジトリ
- GPU推論用の4ビットGPTQモデル
- CPU(+GPU)推論用の4ビット、5ビット、および8ビットGGMLモデル
- GPU推論およびさらなる変換用の、PyTorch形式の量子化されていないfp16モデル
プロンプトテンプレート
このモデルはAlpacaプロンプト形式に従います。
### Instruction:
### Response:
または
### Instruction:
### Input:
### Response:
📦 インストール
text-generation-webuiでこのモデルを簡単にダウンロードして使用する方法
最新バージョンのtext-generation-webuiを使用していることを確認してください。
- Modelタブをクリックします。
- Download custom model or LoRAの下に、
TheBloke/Nous-Hermes-13B-GPTQ
を入力します。 - Downloadをクリックします。
- モデルのダウンロードが開始されます。完了すると「Done」と表示されます。
- 左上のModel横の更新アイコンをクリックします。
- Modelのドロップダウンで、先ほどダウンロードしたモデル
Nous-Hermes-13B-GPTQ
を選択します。 - モデルは自動的に読み込まれ、使用可能な状態になります!
- カスタム設定が必要な場合は、設定を行ってから右上のSave settings for this modelをクリックし、続いてReload the Modelをクリックします。
- GPTQパラメータを設定する必要はありません。これらは
quantize_config.json
ファイルから自動的に設定されます。
- 準備ができたら、Text Generationタブをクリックし、プロンプトを入力して使用を開始します!
PythonコードからこのGPTQモデルを使用する方法
まず、AutoGPTQがインストールされていることを確認してください。
pip install auto-gptq
次に、以下のサンプルコードを試してみてください。
from transformers import AutoTokenizer, pipeline, logging
from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
import argparse
model_name_or_path = "TheBloke/Nous-Hermes-13B-GPTQ"
model_basename = "nous-hermes-13b-GPTQ-4bit-128g.no-act.order"
use_triton = False
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
model = AutoGPTQForCausalLM.from_quantized(model_name_or_path,
model_basename=model_basename,
use_safetensors=True,
trust_remote_code=True,
device="cuda:0",
use_triton=use_triton,
quantize_config=None)
print("\n\n*** Generate:")
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, max_new_tokens=512)
print(tokenizer.decode(output[0]))
# Inference can also be done using transformers' pipeline
# Prevent printing spurious transformers error when using pipeline with AutoGPTQ
logging.set_verbosity(logging.CRITICAL)
prompt = "Tell me about AI"
prompt_template=f'''### Human: {prompt}
### Assistant:'''
print("*** Pipeline:")
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
max_new_tokens=512,
temperature=0.7,
top_p=0.95,
repetition_penalty=1.15
)
print(pipe(prompt_template)[0]['generated_text'])
💻 使用例
基本的な使用法
# 上記のPythonコードを使用して、モデルを使用する基本的な方法を示します。
from transformers import AutoTokenizer, pipeline, logging
from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
import argparse
model_name_or_path = "TheBloke/Nous-Hermes-13B-GPTQ"
model_basename = "nous-hermes-13b-GPTQ-4bit-128g.no-act.order"
use_triton = False
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
model = AutoGPTQForCausalLM.from_quantized(model_name_or_path,
model_basename=model_basename,
use_safetensors=True,
trust_remote_code=True,
device="cuda:0",
use_triton=use_triton,
quantize_config=None)
print("\n\n*** Generate:")
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, max_new_tokens=512)
print(tokenizer.decode(output[0]))
# Inference can also be done using transformers' pipeline
# Prevent printing spurious transformers error when using pipeline with AutoGPTQ
logging.set_verbosity(logging.CRITICAL)
prompt = "Tell me about AI"
prompt_template=f'''### Human: {prompt}
### Assistant:'''
print("*** Pipeline:")
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
max_new_tokens=512,
temperature=0.7,
top_p=0.95,
repetition_penalty=1.15
)
print(pipe(prompt_template)[0]['generated_text'])
📚 ドキュメント
提供されるファイル
nous-hermes-13b-GPTQ-4bit-128g.no-act.order.safetensors これは、すべてのバージョンのGPTQ-for-LLaMaとAutoGPTQで動作します。
nous-hermes-13b-GPTQ-4bit-128g.no-act.order.safetensors
- GPTQ-for-LLaMaコードのすべてのバージョン(TritonおよびCUDAブランチ)で動作します。
- AutoGPTQで動作します。
- text-generation-webuiのワンクリックインストーラーで動作します。
- パラメータ:グループサイズ = 128。Act Order / desc_act = False。
Discord
これらのモデルやAI全般に関するさらなるサポートや議論に参加するには、以下に参加してください。 TheBloke AIのDiscordサーバー
謝辞と貢献方法
chirper.aiチームに感謝します! 多くの人から貢献できるかどうか尋ねられました。私はモデルを提供し、人々を助けることが好きで、それにもっと時間を費やし、微調整/トレーニングなどの新しいプロジェクトにも進出したいと思っています。 貢献できる方がいれば、大変感謝します。これにより、より多くのモデルを提供し、新しいAIプロジェクトに着手するのに役立ちます。 寄付者は、すべてのAI/LLM/モデルに関する質問やリクエストに対する優先サポート、プライベートDiscordルームへのアクセス、その他の特典を受けることができます。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特別な感謝を贈ります:Aemon Algiz。 Patreonで特別に紹介します:Sam, theTransient, Jonathan Leane, Steven Wood, webtim, Johann - Peter Hartmann, Geoffrey Montalvo, Gabriel Tamborski, Willem Michiel, John Villwock, Derek Yates, Mesiah Bishop, Eugene Pentland, Pieter, Chadd, Stephen Murray, Daniel P. Andersen, terasurfer, Brandon Frisco, Thomas Belote, Sid, Nathan LeClaire, Magnesian, Alps Aficionado, Stanislav Ovsiannikov, Alex, Joseph William Delisle, Nikolai Manek, Michael Davis, Junyu Yang, K, J, Spencer Kim, Stefan Sabev, Olusegun Samson, transmissions 11, Michael Levine, Cory Kujawski, Rainer Wilmers, zynix, Kalila, Luke @flexchar, Ajan Kanaga, Mandus, vamX, Ai Maven, Mano Prime, Matthew Berman, subjectnull, Vitor Caleffi, Clay Pascal, biorpg, alfie_i, 阿明, Jeffrey Morgan, ya boyyy, Raymond Fosdick, knownsqashed, Olakabola, Leonard Tan, ReadyPlayerEmma, Enrico Ros, Dave, Talal Aujan, Illia Dulskyi, Sean Connelly, senxiiz, Artur Olbinski, Elle, Raven Klaugh, Fen Risland, Deep Realms, Imad Khwaja, Fred von Graf, Will Dee, usrbinkat, SuperWojo, Alexandros Triantafyllidis, Swaroop Kallakuri, Dan Guido, John Detwiler, Pedro Madruga, Iucharbius, Viktor Bowallius, Asp the Wyvern, Edmond Seymore, Trenton Dambrowitz, Space Cruiser, Spiking Neurons AB, Pyrater, LangChain4j, Tony Hughes, Kacper Wikieł, Rishabh Srivastava, David Ziegler, Luke Pendergrass, Andrey, Gabriel Puliatti, Lone Striker, Sebastain Graf, Pierre Kircher, Randy H, NimbleBox.ai, Vadim, danny, Deo Leter
すべての寛大なパトロンと寄付者に感謝します! また、a16zの寛大な助成金に再度感謝します。
オリジナルのモデルカード:NousResearchのNous-Hermes-13B
モデルの説明
Nous-Hermes-13bは、30万件以上の命令で微調整された最先端の言語モデルです。このモデルはNous Researchによって微調整され、TekniumとKaran4Dが微調整プロセスとデータセットのキュレーションを主導し、Redmond AIがコンピューティングを支援し、他のいくつかの貢献者も参加しています。その結果、さまざまなタスクでGPT-3.5-turboに匹敵する性能を持つ強化されたLlama 13bモデルが生まれました。 このモデルは、長い応答、低い幻覚率、およびOpenAIの検閲メカニズムの欠如が特徴です。微調整プロセスは、8x a100 80GB DGXマシンでシーケンス長2000で50時間以上行われました。
モデルのトレーニング
このモデルは、ほぼすべて合成GPT - 4出力でトレーニングされました。これには、GPTeacher、一般的なロールプレイv1&2、コード命令データセット、Nous Instruct & PDACTL(未公開)、CodeAlpaca、Evol_Instruct Uncensored、GPT4 - LLM、およびUnnatural Instructionsなどのさまざまなソースからのデータが含まれます。 追加のデータ入力は、Camel - AIの生物学/物理学/化学および数学データセット、AiroborosのGPT - 4データセット、およびCodeAlpacaからのものです。データの総量は30万件以上の命令を含んでいます。
協力者
モデルの微調整とデータセットは、Teknium、Karan4D、Nous Research、Huemin Art、およびRedmond AIの間での協力によるものです。 データセットを無料で公開してくれたすべてのデータセット作成者に大きな感謝と謝辞を贈ります。 特別に言及すると、@winglian、@erhartford、および@main_horseがトレーニングの問題の一部を支援してくれました。 データセットの貢献者の中で、GPTeacherはTekniumによって提供され、Wizard LMはnlpxucanによって、Nous Research Instruct DatasetはKaran4DとHueminArtによって提供されました。 GPT4 - LLMとUnnatural InstructionsはMicrosoftによって提供され、Airoborosデータセットはjondurbinによって、Camel - AIデータセットはCamel - AIから、CodeAlpacaデータセットはSahil 2801によって提供されました。 誰かが漏れていた場合は、コミュニティタブでスレッドを開いてください。
プロンプト形式
このモデルはAlpacaプロンプト形式に従います。
### Instruction:
### Response:
または
### Instruction:
### Input:
### Response:
実用例のリソース
huggingface transformersとDiscordを使用した往復チャットボットの例については、以下を確認してください。https://github.com/teknium1/alpaca-discord ロールプレイングDiscordボットの例については、以下を確認してください。https://github.com/teknium1/alpaca-roleplay-discordbot
将来の計画
現在、このモデルはFP16形式でアップロードされており、GGMLおよびGPTQ 4ビット量子化に変換する予定です。チームはまた、GPT4 - x - Vicunaに対して行われたのと同様の完全なベンチマークを行っています。このモデルをGPT4Allに含めるための議論に参加しようとしています。
ベンチマーク結果
ベンチマーク結果は近日公開予定です。
モデルの使用方法
このモデルはHugging Faceでダウンロードできます。創造的なテキストの生成から複雑な命令の理解と実行まで、幅広い言語タスクに適しています。 プロジェクトのスポンサーであるRedmond AIがコンピューティングを提供してくれています。ありがとう!



