Llama 2 7Bオープンソースチャットモデル - 無料でデプロイ可能、対話シーンの交流体験を最適化

ホーム

Llama 2 7b Chat.ggmlv3.q5 K M

BashitAliによって開発

Llama 2 7B チャットモデルはMetaが開発した70億パラメータ規模の大規模言語モデルで、対話シナリオに特化して最適化されています。

大規模言語モデル

Transformers

英語#マルチターン対話最適化 #安全なコンテンツ生成 #低リソース展開

ダウンロード数 59

リリース時間 : 2/5/2024

モデル概要

これは最適化された対話モデルで、安全で役立ち、倫理にかなった返答を生成できます。様々な対話アプリケーションシーンで使用できるように設計されています。

モデル特徴

安全な対話

有害、非倫理的、危険なコンテンツの生成を避けるように最適化されています

倫理優先

社会的公正と積極的な対応を考慮して設計され、人種差別や性差別的な内容を避けます

正直な回答

答えが分からない時は明確にその旨を伝え、虚偽の情報を提供しません

多様なシーン対応

日常的な質疑応答から専門的な相談まで、様々な対話シーンに適用可能

モデル能力

テキスト生成

対話システム

質問応答システム

コンテンツ作成

使用事例

カスタマーサポートシステム

自動化カスタマーサポート

一般的な顧客相談の処理に使用

人間のカスタマーサポート業務負荷を軽減

教育支援

学習アシスタント

学生の学習質問に回答

個別化された学習サポートを提供

コンテンツ作成

クリエイティブライティング

ストーリー作成やコンテンツ生成を支援

創作効率を向上

🚀 Llama 2 7B Chat - GGUF

このプロジェクトは、Meta Llama 2のLlama 2 7B ChatモデルのGGUF形式のモデルファイルを提供します。GGUF形式は、llama.cppでの使用に最適化されており、多くの利点を提供します。

🚀 クイックスタート

このモデルを使用するには、まずモデルファイルをダウンロードする必要があります。いくつかのクライアントやライブラリが自動的にモデルをダウンロードしてくれます。以下に、いくつかの方法を紹介します。

ダウンロード方法

LM Studio、LoLLMS Web UI、Faraday.dev：これらのクライアント/ライブラリは、利用可能なモデルのリストを表示し、自動的にモデルをダウンロードします。
text-generation-webui：Download Modelの下に、モデルリポジトリ（TheBloke/Llama-2-7b-Chat-GGUF）と、ダウンロードする特定のファイル名（例: llama-2-7b-chat.q4_K_M.gguf）を入力し、Downloadをクリックします。
コマンドライン：huggingface-hub Pythonライブラリを使用して、高速でモデルファイルをダウンロードできます。

pip3 install huggingface-hub>=0.17.1
huggingface-cli download TheBloke/Llama-2-7b-Chat-GGUF llama-2-7b-chat.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

実行方法

`llama.cpp` での実行

./main -ngl 32 -m llama-2-7b-chat.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "[INST] <<SYS>>
You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe.  Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature. If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information.
<</SYS>>
{prompt}[/INST]"

-ngl 32：GPUにオフロードするレイヤー数。GPUアクセラレーションがない場合は削除します。
-c 4096：希望するシーケンス長。拡張シーケンスモデルの場合は、必要なRoPEスケーリングパラメータがGGUFファイルから読み取られ、自動的に設定されます。
チャットスタイルの会話を行う場合は、-p <PROMPT> 引数を -i -ins に置き換えます。

`text-generation-webui` での実行

詳細な手順は text-generation-webui/docs/llama.cpp.md を参照してください。

Pythonコードからの実行

llama-cpp-python または ctransformers ライブラリを使用して、PythonからGGUFモデルを使用できます。

from ctransformers import AutoModelForCausalLM

# Set gpu_layers to the number of layers to offload to GPU. Set to 0 if no GPU acceleration is available on your system.
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Llama-2-7b-Chat-GGUF", model_file="llama-2-7b-chat.q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI is going to"))

✨ 主な機能

GGUF形式のサポート：GGUFは新しい形式で、GGMLに代わるものです。より良いトークン化や特殊トークンのサポート、メタデータのサポートなど、多くの利点を提供します。
複数のクライアントとライブラリのサポート：llama.cpp、text-generation-webui、KoboldCpp、LM Studio など、多くのクライアントやライブラリで使用できます。
複数の量子化方法の提供：Q2_K、Q3_K_S、Q4_K_Mなど、様々な量子化方法のモデルファイルが提供されており、ユーザーのニーズに合わせて選択できます。

📦 インストール

必要なライブラリのインストール

pip3 install huggingface-hub>=0.17.1

GPUアクセラレーションを使用する場合は、ctransformers ライブラリを適切にインストールします。

# Base ctransformers with no GPU acceleration
pip install ctransformers>=0.2.24
# Or with CUDA GPU acceleration
pip install ctransformers[cuda]>=0.2.24
# Or with ROCm GPU acceleration
CT_HIPBLAS=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
# Or with Metal GPU acceleration for macOS systems
CT_METAL=1 pip install ctransformers>=0.2.24 --no-binary ctransformers

📚 ドキュメント

モデル情報

属性	详情
モデル作成者	Meta Llama 2
元のモデル	Llama 2 7B Chat
モデルタイプ	llama
パイプラインタグ	text-generation

プロンプトテンプレート

[INST] <<SYS>>
You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe.  Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature. If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information.
<</SYS>>
{prompt}[/INST]

互換性

これらの量子化されたGGUFv2ファイルは、2023年8月27日以降のllama.cpp（コミット d0cee0d36d5be95a0d9088b674dbb27354107221 以降）と互換性があります。また、多くのサードパーティのUIやライブラリでも使用できます。

量子化方法の説明

詳細を表示するにはクリックしてください

利用可能な新しい方法は以下の通りです。

GGML_TYPE_Q2_K：スーパーブロックに16個のブロックが含まれ、各ブロックに16個の重みがある「タイプ1」の2ビット量子化。ブロックのスケールと最小値は4ビットで量子化されます。これにより、重みあたり実効的に2.5625ビット（bpw）が使用されます。
GGML_TYPE_Q3_K：スーパーブロックに16個のブロックが含まれ、各ブロックに16個の重みがある「タイプ0」の3ビット量子化。スケールは6ビットで量子化されます。これにより、3.4375bpwが使用されます。
GGML_TYPE_Q4_K：スーパーブロックに8個のブロックが含まれ、各ブロックに32個の重みがある「タイプ1」の4ビット量子化。スケールと最小値は6ビットで量子化されます。これにより、4.5bpwが使用されます。
GGML_TYPE_Q5_K：「タイプ1」の5ビット量子化。GGML_TYPE_Q4_Kと同じスーパーブロック構造で、5.5bpwになります。
GGML_TYPE_Q6_K：「タイプ0」の6ビット量子化。16個のブロックを持つスーパーブロックで、各ブロックに16個の重みがあります。スケールは8ビットで量子化されます。これにより、6.5625bpwが使用されます。

提供されているファイルの表を参照して、どのファイルがどの方法を使用しているかを確認してください。

提供されるファイル

名前	量子化方法	ビット数	サイズ	必要な最大RAM	使用例
llama-2-7b-chat.Q2_K.gguf	Q2_K	2	2.83 GB	5.33 GB	最も小さいが、品質が大幅に損失する - ほとんどの目的には推奨されない
llama-2-7b-chat.Q3_K_S.gguf	Q3_K_S	3	2.95 GB	5.45 GB	非常に小さいが、品質が大きく損失する
llama-2-7b-chat.Q3_K_M.gguf	Q3_K_M	3	3.30 GB	5.80 GB	非常に小さいが、品質が大きく損失する
llama-2-7b-chat.Q3_K_L.gguf	Q3_K_L	3	3.60 GB	6.10 GB	小さいが、品質が大幅に損失する
llama-2-7b-chat.Q4_0.gguf	Q4_0	4	3.83 GB	6.33 GB	レガシー; 小さいが、品質が非常に大きく損失する - Q3_K_Mを使用することを推奨
llama-2-7b-chat.Q4_K_S.gguf	Q4_K_S	4	3.86 GB	6.36 GB	小さいが、品質が大きく損失する
llama-2-7b-chat.Q4_K_M.gguf	Q4_K_M	4	4.08 GB	6.58 GB	中程度で、バランスの良い品質 - 推奨
llama-2-7b-chat.Q5_0.gguf	Q5_0	5	4.65 GB	7.15 GB	レガシー; 中程度で、バランスの良い品質 - Q4_K_Mを使用することを推奨
llama-2-7b-chat.Q5_K_S.gguf	Q5_K_S	5	4.65 GB	7.15 GB	大きいが、品質の損失が少ない - 推奨
llama-2-7b-chat.Q5_K_M.gguf	Q5_K_M	5	4.78 GB	7.28 GB	大きいが、品質の損失が非常に少ない - 推奨
llama-2-7b-chat.Q6_K.gguf	Q6_K	6	5.53 GB	8.03 GB	非常に大きいが、品質の損失が極めて少ない
llama-2-7b-chat.Q8_0.gguf	Q8_0	8	7.16 GB	9.66 GB	非常に大きいが、品質の損失が極めて少ない - 推奨されない