OpenHermes 2.5オープンソース言語モデル - 無料でデプロイ可能、効率的なコード生成と汎用タスク処理！

ホーム

Openhermes 2.5 Mistral 7B GPTQ

TheBlokeによって開発

OpenHermes 2.5はMistral-7Bをファインチューニングした高度な言語モデルで、コード生成と汎用タスク処理に特化しており、前世代バージョンよりも優れた性能を発揮します。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #マルチターン対話最適化 #コード能力強化 #GPT-4レベルファインチューニング

ダウンロード数 695

リリース時間 : 11/2/2023

モデル概要

OpenHermes 2.5はTekniumが開発したMistral-7Bのファインチューニングモデルで、コードデータセットの追加トレーニングにより複数のベンチマークテストのパフォーマンスが向上し、特にコード生成と複雑な問題解決に優れています。

モデル特徴

コード能力強化

追加のコードデータセットトレーニングにより、humanevalスコアが43%から50.7%に向上し、プログラミング問題解決能力が大幅に向上しました

マルチベンチマーク向上

TruthfulQA、AGIEval、GPT4Allなどの非コードベンチマークテストで優れたパフォーマンスを発揮し、総合能力が全体的に強化されました

ChatMLフォーマット対応

標準化されたChatMLプロンプトテンプレートを採用しており、様々な対話システムへの統合が容易です

モデル能力

テキスト生成

コード生成

複雑な問題解答

ロールプレイング対話

知識質問応答

使用事例

プログラミング支援

コード生成と説明

自然言語の記述に基づいて機能コードを生成したり、既存のコードを説明したりします

humaneval pass@1が50.7%を達成

インテリジェント対話

個性あるロールプレイ

特定の役割や人物をシミュレートして自然な対話を行います

アニメキャラクターや歴史上の人物などをシミュレート可能

知識質問応答

複雑な問題解答

様々な知識に関する質問に回答し、詳細な説明を提供します

AGIEvalベンチマークテストで優れた成績

🚀 Openhermes 2.5 Mistral 7B - GPTQ

このモデルは、Tekniumによって作成されたOpenHermes-2.5-Mistral-7BのGPTQモデルファイルを提供します。複数のGPTQパラメータのパーミュテーションが用意されており、ハードウェアと要件に合わせて最適なものを選択できます。

🚀 クイックスタート

このセクションでは、Openhermes 2.5 Mistral 7B - GPTQモデルの基本的な使い方を説明します。

✨ 主な機能

複数のGPTQパラメータを提供し、ハードウェアと要件に合わせて最適なものを選択できます。
複数の推論サーバー/ウェブUIで動作することが知られています。

📦 インストール

text-generation-webuiでのダウンロード

mainブランチからダウンロードするには、「Download model」ボックスにTheBloke/OpenHermes-2.5-Mistral-7B-GPTQを入力します。
別のブランチからダウンロードするには、ダウンロード名の末尾に:branchnameを追加します。例えば、TheBloke/OpenHermes-2.5-Mistral-7B-GPTQ:gptq-4bit-32g-actorder_True

コマンドラインからのダウンロード

huggingface-hub Pythonライブラリを使用することをお勧めします。

pip3 install huggingface-hub

mainブランチをOpenHermes-2.5-Mistral-7B-GPTQというフォルダにダウンロードするには：

mkdir OpenHermes-2.5-Mistral-7B-GPTQ
huggingface-cli download TheBloke/OpenHermes-2.5-Mistral-7B-GPTQ --local-dir OpenHermes-2.5-Mistral-7B-GPTQ --local-dir-use-symlinks False

別のブランチからダウンロードするには、--revisionパラメータを追加します：

mkdir OpenHermes-2.5-Mistral-7B-GPTQ
huggingface-cli download TheBloke/OpenHermes-2.5-Mistral-7B-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir OpenHermes-2.5-Mistral-7B-GPTQ --local-dir-use-symlinks False

`git`を使用する場合（推奨しません）

特定のブランチをgitでクローンするには、次のようなコマンドを使用します：

git clone --single-branch --branch gptq-4bit-32g-actorder_True https://huggingface.co/TheBloke/OpenHermes-2.5-Mistral-7B-GPTQ

💻 使用例

text-generation-webuiでの使用方法

Modelタブをクリックします。
Download custom model or LoRAの下に、TheBloke/OpenHermes-2.5-Mistral-7B-GPTQを入力します。
- 特定のブランチからダウンロードするには、例えばTheBloke/OpenHermes-2.5-Mistral-7B-GPTQ:gptq-4bit-32g-actorder_Trueのように入力します。
Downloadをクリックします。
モデルのダウンロードが開始されます。完了すると「Done」と表示されます。
左上のModelの横にある更新アイコンをクリックします。
Modelのドロップダウンで、先ほどダウンロードしたモデルOpenHermes-2.5-Mistral-7B-GPTQを選択します。
モデルが自動的にロードされ、使用可能になります。
カスタム設定が必要な場合は、設定を行ってから右上のSave settings for this modelをクリックし、続いてReload the Modelをクリックします。
準備ができたら、Text Generationタブをクリックしてプロンプトを入力し、開始します。

Text Generation Inference (TGI)からのモデルの提供

TGIバージョン1.1.0以降を使用することをお勧めします。公式のDockerコンテナはghcr.io/huggingface/text-generation-inference:1.1.0です。

例のDockerパラメータ：

--model-id TheBloke/OpenHermes-2.5-Mistral-7B-GPTQ --port 3000 --quantize gptq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096

TGIとやり取りするための例のPythonコード（huggingface-hub 0.17.0以降が必要）：

pip3 install huggingface-hub

from huggingface_hub import InferenceClient

endpoint_url = "https://your-endpoint-url-here"

prompt = "Tell me about AI"
prompt_template=f'''<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
'''

client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
                                  max_new_tokens=128,
                                  do_sample=True,
                                  temperature=0.7,
                                  top_p=0.95,
                                  top_k=40,
                                  repetition_penalty=1.1)

print(f"Model output: {response}")

PythonコードからのGPTQモデルの使用方法

必要なパッケージをインストールします。

pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/  # Use cu117 if on CUDA 11.7

AutoGPTQを事前構築されたホイールを使用してインストールする際に問題がある場合は、ソースからインストールしてください：

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .

その後、次のコードを使用できます：

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/OpenHermes-2.5-Mistral-7B-GPTQ"

# トークナイザーとモデルのロード
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(model_name_or_path, device_map="auto")

# パイプラインの作成
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)

# プロンプトの設定
prompt = "Tell me about AI"
prompt_template=f'''<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
'''

# テキスト生成
output = pipe(prompt_template, max_new_tokens=128, do_sample=True, temperature=0.7, top_p=0.95, top_k=40, repetition_penalty=1.1)

print(f"Model output: {output[0]['generated_text']}")

📚 ドキュメント

プロンプトテンプレート: ChatML

<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

互換性のあるクライアント/サーバー

これらのGPTQモデルは、以下の推論サーバー/ウェブUIで動作することが知られています。

これは完全なリストではない可能性があります。他のものを知っている場合は、教えてください！

提供されるファイルとGPTQパラメータ

複数の量子化パラメータが提供されており、ハードウェアと要件に合わせて最適なものを選択できます。

各個別の量子化は異なるブランチにあります。異なるブランチから取得する方法については、以下を参照してください。

ほとんどのGPTQファイルはAutoGPTQで作成されています。Mistralモデルは現在、Transformersで作成されています。

GPTQパラメータの説明

Bits: 量子化されたモデルのビットサイズ。
GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。「None」は可能な最低値です。
Act Order: TrueまたはFalse。desc_actとも呼ばれます。Trueの場合、より高い量子化精度が得られます。一部のGPTQクライアントでは、Act Orderとグループサイズを使用するモデルに問題がありましたが、現在は一般的に解決されています。
Damp %: 量子化のためにサンプルが処理される方法に影響を与えるGPTQパラメータ。デフォルトは0.01ですが、0.1の方がわずかに精度が向上します。
GPTQ dataset: 量子化中に使用されるキャリブレーションデータセット。モデルのトレーニングに適したデータセットを使用すると、量子化精度を向上させることができます。GPTQキャリブレーションデータセットは、モデルのトレーニングに使用されるデータセットとは異なることに注意してください。トレーニングデータセットの詳細については、元のモデルリポジトリを参照してください。
Sequence Length: 量子化に使用されるデータセットシーケンスの長さ。理想的には、これはモデルのシーケンス長と同じです。一部の非常に長いシーケンスモデル（16+K）では、より短いシーケンス長を使用する必要がある場合があります。ただし、シーケンス長を短くすると、量子化されたモデルのシーケンス長が制限されるわけではありません。長い推論シーケンスでの量子化精度にのみ影響します。
ExLlama Compatibility: このファイルがExLlamaでロードできるかどうか。現在、ExLlamaは4ビットのLlamaとMistralモデルのみをサポートしています。

ブランチ	ビット	GS	Act Order	Damp %	GPTQデータセット	シーケンス長	サイズ	ExLlama	説明
main	4	128	Yes	0.1	wikitext	4096	4.16 GB	Yes	4ビット、Act Orderとグループサイズ128gを使用。64gよりもVRAMの使用量が少ないが、精度はわずかに低い。
gptq-4bit-32g-actorder_True	4	32	Yes	0.1	wikitext	4096	4.57 GB	Yes	4ビット、Act Orderとグループサイズ32gを使用。可能な限り高い推論品質を提供するが、VRAMの使用量は最大。
gptq-8bit--1g-actorder_True	8	None	Yes	0.1	wikitext	4096	4.95 GB	No	8ビット、Act Orderを使用。グループサイズなし、VRAM要件を低くする。
gptq-8bit-128g-actorder_True	8	128	Yes	0.1	wikitext	4096	5.00 GB	No	8ビット、グループサイズ128gを使用して推論品質を向上させ、Act Orderを使用してさらに精度を高める。
gptq-8bit-32g-actorder_True	8	32	Yes	0.1	wikitext	4096	4.97 GB	No	8ビット、グループサイズ32gとAct Orderを使用して最大の推論品質を実現。
gptq-4bit-64g-actorder_True	4	64	Yes	0.1	wikitext	4096	4.30 GB	Yes	4ビット、Act Orderとグループサイズ64gを使用。32gよりもVRAMの使用量が少ないが、精度はわずかに低い。