Llama-2-70B-Chat-GGUFオープンソース対話モデル - 無料デプロイで効率的な対話交流をサポート

Home

Llama 2 70B Chat GGUF

Developed by TheBloke

Llama 2 70B ChatはMetaが開発した700億パラメータの大規模言語モデルで、対話タスクに最適化されています。

大規模言語モデル English#大規模言語モデル対話 #マルチターンインタラクション #安全・コンプライアンス

Downloads 3,578

Release Time : 9/4/2023

Model Overview

Llama 2 70B ChatはTransformerアーキテクチャに基づく大規模言語モデルで、対話シーン向けに最適化されており、一貫性があり、役立ち、安全な返答を生成できます。

Model Features

対話最適化

対話シーンに特化して最適化されており、一貫性があり文脈に沿った返答を生成できます。

安全な返答

安全性を考慮して設計されており、有害、非道徳的、危険なコンテンツの生成を回避します。

大規模パラメータ

700億のパラメータを有し、強力な言語理解と生成能力を備えています。

マルチプラットフォーム対応

様々な量子化バージョンを提供し、異なるハードウェアプラットフォームでの実行をサポートします。

Model Capabilities

テキスト生成

対話インタラクション

文脈理解

マルチターン対話

Use Cases

インテリジェントアシスタント

カスタマーサービスボット

顧客の質問に自動で回答し、24/7のカスタマーサポートサービスを提供します。

複雑な問題を理解し正確な回答を提供できます

パーソナルアシスタント

スケジュール管理、質問回答など、ユーザーの日常タスクを支援します。

個人的で有用なアドバイスを提供します

教育

学習サポート

学生が複雑な概念を理解し、学習上の疑問を解決するのを支援します。

分かりやすく明確な説明を提供します

🚀 Llama 2 70B Chat - GGUF

このプロジェクトは、Meta Llama 2によるLlama 2 70B ChatモデルのGGUF形式のモデルファイルを提供します。GGUF形式はGGML形式の代替として開発され、多くの利点を持っています。

チャットとサポート: TheBlokeのDiscordサーバー

貢献したい方は、TheBlokeのPatreonページ

TheBlokeのLLM関連の仕事は、andreessen horowitz (a16z)からの助成金によって支援されています。

📚 詳細情報

モデルについて

モデル作成者: Meta Llama 2
オリジナルモデル: Llama 2 70B Chat

GGUF形式について

GGUFは、2023年8月21日にllama.cppチームによって導入された新しい形式です。これは、もはやllama.cppでサポートされていないGGML形式の代替となります。GGUFは、GGMLに比べて多くの利点を提供します。例えば、より良いトークン化や特殊トークンのサポートがあり、メタデータもサポートし、拡張性を持つように設計されています。

以下は、GGUFをサポートすることが知られているクライアントとライブラリの不完全なリストです。

llama.cpp。GGUFのソースプロジェクトで、CLIとサーバーオプションを提供します。
text-generation-webui、最も広く使用されているウェブUIで、多くの機能と強力な拡張機能を備えています。GPUアクセラレーションをサポートしています。
KoboldCpp、すべてのプラットフォームとGPUアーキテクチャでGPUアクセラレーションを備えた、完全な機能を持つウェブUIです。特にストーリーテリングに適しています。
LM Studio、WindowsとmacOS (Silicon)用の使いやすく強力なローカルGUIで、GPUアクセラレーションを備えています。
LoLLMS Web UI、多くの興味深くユニークな機能を備えた素晴らしいウェブUIで、簡単なモデル選択のための完全なモデルライブラリもあります。
Faraday.dev、WindowsとmacOS (SiliconとIntelの両方)用の魅力的で使いやすいキャラクターベースのチャットGUIで、GPUアクセラレーションを備えています。
ctransformers、GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAIサーバーを備えたPythonライブラリです。
llama-cpp-python、GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAPIサーバーを備えたPythonライブラリです。
candle、パフォーマンスに重点を置いたRustのMLフレームワークで、GPUサポートと使いやすさを備えています。

利用可能なリポジトリ

プロンプトテンプレート: Llama-2-Chat

[INST] <<SYS>>
あなたは役立ち、礼儀正しく、正直なアシスタントです。常にできる限り役立つ回答をしてくださいが、安全を考慮してください。あなたの回答には、有害、非倫理的、人種差別的、性差別的、有毒、危険、または違法な内容を含めないでください。回答が社会的に偏見がなく、前向きな性質であることを確認してください。質問が意味を成さない場合、または事実的に整合性がない場合、正しくない回答をする代わりに、その理由を説明してください。質問の答えを知らない場合は、誤った情報を共有しないでください。
<</SYS>>
{prompt}[/INST]

互換性

これらの量子化されたGGUFv2ファイルは、2023年8月27日以降のllama.cpp（コミットd0cee0d36d5be95a0d9088b674dbb27354107221）と互換性があります。

また、多くのサードパーティのUIやライブラリとも互換性があります。詳細はこのREADMEの冒頭のリストを参照してください。

量子化方法の説明

詳細を表示するにはクリック

利用可能な新しい方法は以下の通りです。

GGML_TYPE_Q2_K - 16個のブロックを含むスーパーブロック内の「タイプ1」2ビット量子化。各ブロックには16個の重みがあります。ブロックのスケールと最小値は4ビットで量子化されます。これにより、重み1つあたり実質的に2.5625ビット（bpw）が使用されます。
GGML_TYPE_Q3_K - 16個のブロックを含むスーパーブロック内の「タイプ0」3ビット量子化。各ブロックには16個の重みがあります。スケールは6ビットで量子化されます。これにより、3.4375bpwが使用されます。
GGML_TYPE_Q4_K - 8個のブロックを含むスーパーブロック内の「タイプ1」4ビット量子化。各ブロックには32個の重みがあります。スケールと最小値は6ビットで量子化されます。これにより、4.5bpwが使用されます。
GGML_TYPE_Q5_K - 「タイプ1」5ビット量子化。GGML_TYPE_Q4_Kと同じスーパーブロック構造で、5.5bpwになります。
GGML_TYPE_Q6_K - 「タイプ0」6ビット量子化。16個のブロックを含むスーパーブロックで、各ブロックには16個の重みがあります。スケールは8ビットで量子化されます。これにより、6.5625bpwが使用されます。

どのファイルがどの方法を使用しているか、およびその方法については、以下の提供されるファイルの表を参照してください。

提供されるファイル

名前	量子化方法	ビット数	サイズ	必要な最大RAM	使用ケース
llama-2-70b-chat.Q2_K.gguf	Q2_K	2	29.28 GB	31.78 GB	最も小さいが、品質が大幅に損なわれる - ほとんどの目的には推奨されません
llama-2-70b-chat.Q3_K_S.gguf	Q3_K_S	3	29.92 GB	32.42 GB	非常に小さいが、品質が大きく損なわれる
llama-2-70b-chat.Q5_K_S.gguf	Q5_K_S	5	30.57 GB	33.07 GB	大きいが、品質の損失が少ない - 推奨
llama-2-70b-chat.Q3_K_M.gguf	Q3_K_M	3	33.19 GB	35.69 GB	非常に小さいが、品質が大きく損なわれる
llama-2-70b-chat.Q3_K_L.gguf	Q3_K_L	3	36.15 GB	38.65 GB	小さいが、品質が大幅に損なわれる
llama-2-70b-chat.Q4_0.gguf	Q4_0	4	38.87 GB	41.37 GB	レガシー；小さいが、品質が非常に大きく損なわれる - Q3_K_Mの使用を推奨
llama-2-70b-chat.Q4_K_S.gguf	Q4_K_S	4	39.07 GB	41.57 GB	小さいが、品質の損失が大きい
llama-2-70b-chat.Q4_K_M.gguf	Q4_K_M	4	41.42 GB	43.92 GB	中程度で、品質がバランスが取れている - 推奨
llama-2-70b-chat.Q5_0.gguf	Q5_0	5	47.46 GB	49.96 GB	レガシー；中程度で、品質がバランスが取れている - Q4_K_Mの使用を推奨
llama-2-70b-chat.Q5_K_M.gguf	Q5_K_M	5	48.75 GB	51.25 GB	大きいが、品質の損失が非常に少ない - 推奨
llama-2-70b-chat.Q6_K.gguf	Q6_K	6	56.59 GB	59.09 GB	非常に大きいが、品質の損失が極めて少ない
llama-2-70b-chat.Q8_0.gguf	Q8_0	8	73.29 GB	75.79 GB	非常に大きいが、品質の損失が極めて少ない - 推奨されません

注: 上記のRAM数値は、GPUオフロードがないことを前提としています。レイヤーがGPUにオフロードされると、これによりRAM使用量が減少し、代わりにVRAMが使用されます。

Q6_KとQ8_0ファイルは分割されており、結合が必要です

注: HFは50GBを超えるファイルのアップロードをサポートしていません。そのため、Q6_KとQ8_0ファイルは分割ファイルとしてアップロードされています。

Q6_KとQ8_0ファイルに関する指示を表示するにはクリック

q6_K

以下をダウンロードしてください。

llama-2-70b-chat.Q6_K.gguf-split-a
llama-2-70b-chat.Q6_K.gguf-split-b

q8_0

以下をダウンロードしてください。

llama-2-70b-chat.Q8_0.gguf-split-a
llama-2-70b-chat.Q8_0.gguf-split-b

ファイルを結合するには、以下の操作を行ってください。

LinuxとmacOS:

cat llama-2-70b-chat.Q6_K.gguf-split-* > llama-2-70b-chat.Q6_K.gguf && rm llama-2-70b-chat.Q6_K.gguf-split-*
cat llama-2-70b-chat.Q8_0.gguf-split-* > llama-2-70b-chat.Q8_0.gguf && rm llama-2-70b-chat.Q8_0.gguf-split-*

Windowsコマンドライン:

COPY /B llama-2-70b-chat.Q6_K.gguf-split-a + llama-2-70b-chat.Q6_K.gguf-split-b llama-2-70b-chat.Q6_K.gguf
del llama-2-70b-chat.Q6_K.gguf-split-a llama-2-70b-chat.Q6_K.gguf-split-b

COPY /B llama-2-70b-chat.Q8_0.gguf-split-a + llama-2-70b-chat.Q8_0.gguf-split-b llama-2-70b-chat.Q8_0.gguf
del llama-2-70b-chat.Q8_0.gguf-split-a llama-2-70b-chat.Q8_0.gguf-split-b

📥 GGUFファイルのダウンロード方法

手動ダウンロードする方への注意: ほとんどの場合、リポジトリ全体をクローンする必要はありません。複数の異なる量子化形式が提供されていますが、ほとんどのユーザーは1つのファイルを選択してダウンロードするだけです。

以下のクライアント/ライブラリは、利用可能なモデルのリストを提供し、自動的にモデルをダウンロードします。

LM Studio
LoLLMS Web UI
Faraday.dev

`text-generation-webui`でのダウンロード方法

「Download Model」の下で、モデルリポジトリ「TheBloke/Llama-2-70B-chat-GGUF」を入力し、その下にダウンロードする特定のファイル名（例: llama-2-70b-chat.Q4_K_M.gguf）を入力します。

その後、「Download」をクリックしてください。

コマンドラインでのダウンロード方法（複数のファイルを一度に含む場合も）

huggingface-hub Pythonライブラリの使用をお勧めします。

pip3 install huggingface-hub>=0.17.1

その後、以下のようなコマンドで、任意の個別のモデルファイルを高速で現在のディレクトリにダウンロードできます。

huggingface-cli download TheBloke/Llama-2-70B-chat-GGUF llama-2-70b-chat.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

より高度なhuggingface-cliダウンロードの使用方法

パターンを使用して複数のファイルを一度にダウンロードすることもできます。

huggingface-cli download TheBloke/Llama-2-70B-chat-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'

huggingface-cliを使用したダウンロードの詳細なドキュメントは、HF -> Hub Python Library -> Download files -> Download from the CLIを参照してください。

高速接続（1Gbit/s以上）でのダウンロードを加速するには、hf_transferをインストールします。

pip3 install hf_transfer

そして、環境変数HF_HUB_ENABLE_HF_TRANSFERを1に設定します。

HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Llama-2-70B-chat-GGUF llama-2-70b-chat.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windows CLIユーザーは、ダウンロードコマンドを実行する前にset HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1を使用してください。

💻 実行方法

llama.cppでの実行例

llama.cppが2023年8月27日以降のバージョン（コミットd0cee0d36d5be95a0d9088b674dbb27354107221）であることを確認してください。

./main -ngl 32 -m llama-2-70b-chat.Q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "[INST] <<SYS>>\nあなたは役立ち、礼儀正しく、正直なアシスタントです。常にできる限り役立つ回答をしてくださいが、安全を考慮してください。あなたの回答には、有害、非倫理的、人種差別的、性差別的、有毒、危険、または違法な内容を含めないでください。回答が社会的に偏見がなく、前向きな性質であることを確認してください。質問が意味を成さない場合、または事実的に整合性がない場合、正しくない回答をする代わりに、その理由を説明してください。質問の答えを知らない場合は、誤った情報を共有しないでください。\n<</SYS>>\n{prompt}[/INST]"

-ngl 32をGPUにオフロードするレイヤー数に変更してください。GPUアクセラレーションがない場合は削除してください。

-c 4096を希望するシーケンス長に変更してください。拡張シーケンスモデル（例: 8K、16K、32K）の場合、必要なRoPEスケーリングパラメータはGGUFファイルから読み取られ、llama.cppによって自動的に設定されます。

チャットスタイルの会話を行いたい場合は、-p <PROMPT>引数を-i -insに置き換えてください。

その他のパラメータとその使用方法については、llama.cppのドキュメントを参照してください。

text-generation-webuiでの実行方法

詳細な指示は、text-generation-webui/docs/llama.cpp.mdを参照してください。

Pythonコードからの実行方法

llama-cpp-pythonまたはctransformersライブラリを使用して、PythonからGGUFモデルを使用することができます。

ctransformersを使用してこのモデルをPythonからロードする方法

# ここにコードが続く予定だったが、元のREADMEに記載がなかったため省略

📄 ライセンス

このモデルはLlama 2のライセンスに基づいて提供されています。

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers Supports Multiple Languages

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご