Mistral-7B-v0.1-GGUFオープンソース大規模言語モデル - 無料で利用して、スマートな質問応答などの多様なアプリケーションをサポート

ホーム

Mistral 7B V0.1 GGUF

TheBlokeによって開発

Mistral 7B v0.1はMistral AIが開発した70億パラメータのオープンソース大規模言語モデルで、Apache 2.0ライセンスで公開されています。

大規模言語モデルオープンソースライセンス:Apache-2.0 #7Bパラメータ規模 #多言語サポート #テキスト生成

ダウンロード数 17.17k

リリース時間 : 9/27/2023

モデル概要

Mistral 7B v0.1は事前学習済みの大規模言語モデルで、主にテキスト生成タスクに使用されます。様々な量子化バージョンを提供しており、異なるハードウェアと性能要件に対応しています。

モデル特徴

様々な量子化バージョン

2ビットから8ビットまでの様々な量子化バージョンを提供し、異なるハードウェアと性能要件に対応しています。

効率的な推論

llama.cpp、text-generation-webuiなど、様々な推論クライアントとライブラリをサポートしており、展開と使用が容易です。

オープンソースライセンス

Apache 2.0ライセンスを採用しており、商用利用と改変が許可されています。

モデル能力

テキスト生成

多言語サポート

使用事例

テキスト生成

コンテンツ作成

記事、ストーリー、詩などのクリエイティブなコンテンツを生成するために使用されます。

対話システム

チャットボットや仮想アシスタントを構築するために使用されます。

🚀 Mistral 7B v0.1 - GGUF

このプロジェクトは、Mistral AIのMistral 7B v0.1モデルのGGUF形式のモデルファイルを提供しています。GGUFは新しいモデルフォーマットで、多くのクライアントやライブラリでサポートされています。

チャットとサポート: TheBlokeのDiscordサーバー

貢献したい方は、TheBlokeのPatreonページ

TheBlokeのLLM関連の作業は、andreessen horowitz (a16z)からの助成金によって支援されています

🚀 クイックスタート

このリポジトリには、Mistral AIのMistral 7B v0.1のGGUF形式のモデルファイルが含まれています。以下に、このモデルを使うための基本的な手順を説明します。

モデル情報

属性	详情
モデルタイプ	Mistral
モデル作成者	Mistral AI
元のモデル	Mistral 7B v0.1
ライセンス	Apache-2.0

説明

このリポジトリには、Mistral AIのMistral 7B v0.1のGGUF形式のモデルファイルが含まれています。

GGUFについて

GGUFは、llama.cppチームによって2023年8月21日に導入された新しいフォーマットです。これはGGMLの代替フォーマットで、現在はllama.cppではGGMLがサポートされなくなりました。

GGUFをサポートしていることが知られているクライアントとライブラリの不完全なリストは以下の通りです。

llama.cpp。GGUFのソースプロジェクトで、CLIとサーバーオプションを提供します。
text-generation-webui、最も広く使用されているWeb UIで、多くの機能と強力な拡張機能があります。GPUアクセラレーションをサポートしています。
KoboldCpp、全機能を備えたWeb UIで、すべてのプラットフォームとGPUアーキテクチャでGPUアクセラレーションが可能です。特にストーリーテリングに適しています。
LM Studio、WindowsとmacOS (Silicon)用の使いやすく強力なローカルGUIで、GPUアクセラレーションがあります。
LoLLMS Web UI、多くの興味深い独自の機能を備えた素晴らしいWeb UIで、モデルの選択が容易な完全なモデルライブラリがあります。
Faraday.dev、WindowsとmacOS (SiliconとIntelの両方)用の魅力的で使いやすいキャラクターベースのチャットGUIで、GPUアクセラレーションがあります。
ctransformers、GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAIサーバーを備えたPythonライブラリ。
llama-cpp-python、GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAPIサーバーを備えたPythonライブラリ。
candle、パフォーマンスに重点を置いたRustのMLフレームワークで、GPUサポートと使いやすさを備えています。

利用可能なリポジトリ

プロンプトテンプレート: なし

{prompt}

互換性

これらの量子化されたGGUFv2ファイルは、2023年8月27日以降のllama.cpp（コミットd0cee0d以降）と互換性があります。

また、多くのサードパーティのUIやライブラリとも互換性があります。詳細はこのREADMEの冒頭のリストを参照してください。

シーケンス長に関する注意: このモデルはシーケンス長4096以下で動作します。GGUFはまだ新しいスライディングウィンドウシーケンス長モードをサポートしていないため、より長いシーケンス長はサポートされていません。

量子化方法の説明

詳細を表示するにはクリック

利用可能な新しい方法は以下の通りです。

GGML_TYPE_Q2_K - 16個のブロックを含むスーパーブロックでの「タイプ1」の2ビット量子化。各ブロックには16個の重みがあります。ブロックのスケールと最小値は4ビットで量子化されます。これにより、実質的に重みごとに2.5625ビット（bpw）が使用されます。
GGML_TYPE_Q3_K - 16個のブロックを含むスーパーブロックでの「タイプ0」の3ビット量子化。各ブロックには16個の重みがあります。スケールは6ビットで量子化されます。これにより、3.4375 bpwが使用されます。
GGML_TYPE_Q4_K - 8個のブロックを含むスーパーブロックでの「タイプ1」の4ビット量子化。各ブロックには32個の重みがあります。スケールと最小値は6ビットで量子化されます。これにより、4.5 bpwが使用されます。
GGML_TYPE_Q5_K - 「タイプ1」の5ビット量子化。GGML_TYPE_Q4_Kと同じスーパーブロック構造で、5.5 bpwになります。
GGML_TYPE_Q6_K - 「タイプ0」の6ビット量子化。16個のブロックを含むスーパーブロックで、各ブロックには16個の重みがあります。スケールは8ビットで量子化されます。これにより、6.5625 bpwが使用されます。

以下の「提供されるファイル」表を参照して、どのファイルがどの方法を使用しているか、およびその方法を確認してください。

提供されるファイル

名前	量子化方法	ビット数	サイズ	必要な最大RAM	使用例
mistral-7b-v0.1.Q2_K.gguf	Q2_K	2	3.08 GB	5.58 GB	最も小さいが、品質が大幅に低下する - ほとんどの目的には推奨されない
mistral-7b-v0.1.Q3_K_S.gguf	Q3_K_S	3	3.16 GB	5.66 GB	非常に小さいが、品質が大きく低下する
mistral-7b-v0.1.Q3_K_M.gguf	Q3_K_M	3	3.52 GB	6.02 GB	非常に小さいが、品質が大きく低下する
mistral-7b-v0.1.Q3_K_L.gguf	Q3_K_L	3	3.82 GB	6.32 GB	小さいが、品質が大幅に低下する
mistral-7b-v0.1.Q4_0.gguf	Q4_0	4	4.11 GB	6.61 GB	レガシー; 小さいが、品質が非常に大きく低下する - Q3_K_Mの使用を推奨
mistral-7b-v0.1.Q4_K_S.gguf	Q4_K_S	4	4.14 GB	6.64 GB	小さいが、品質が大きく低下する
mistral-7b-v0.1.Q4_K_M.gguf	Q4_K_M	4	4.37 GB	6.87 GB	中程度で、品質がバランスが取れている - 推奨
mistral-7b-v0.1.Q5_0.gguf	Q5_0	5	5.00 GB	7.50 GB	レガシー; 中程度で、品質がバランスが取れている - Q4_K_Mの使用を推奨
mistral-7b-v0.1.Q5_K_S.gguf	Q5_K_S	5	5.00 GB	7.50 GB	大きいが、品質の低下が少ない - 推奨
mistral-7b-v0.1.Q5_K_M.gguf	Q5_K_M	5	5.13 GB	7.63 GB	大きいが、品質の低下が非常に少ない - 推奨
mistral-7b-v0.1.Q6_K.gguf	Q6_K	6	5.94 GB	8.44 GB	非常に大きいが、品質の低下が極めて少ない
mistral-7b-v0.1.Q8_0.gguf	Q8_0	8	7.70 GB	10.20 GB	非常に大きいが、品質の低下が極めて少ない - 推奨されない

注: 上記のRAM数値は、GPUオフロードがないことを前提としています。レイヤーがGPUにオフロードされると、これによりRAM使用量が減少し、代わりにVRAMが使用されます。

GGUFファイルのダウンロード方法

手動でダウンロードする方への注意: ほとんどの場合、リポジトリ全体をクローンする必要はありません！複数の異なる量子化形式が提供されており、ほとんどのユーザーは単一のファイルを選択してダウンロードするだけです。

以下のクライアント/ライブラリは、利用可能なモデルのリストを提供し、自動的にモデルをダウンロードします。

LM Studio
LoLLMS Web UI
Faraday.dev

`text-generation-webui`でのダウンロード

「Download Model」の下で、モデルリポジトリを入力します: TheBloke/Mistral-7B-v0.1-GGUF。その下に、ダウンロードする特定のファイル名を入力します。例えば、mistral-7b-v0.1.Q4_K_M.gguf。

次に、「Download」をクリックします。

コマンドラインでのダウンロード（複数のファイルを一度に含む）

huggingface-hub Pythonライブラリの使用をお勧めします。

pip3 install huggingface-hub

次に、以下のようなコマンドで、任意の個々のモデルファイルを高速で現在のディレクトリにダウンロードできます。

huggingface-cli download TheBloke/Mistral-7B-v0.1-GGUF mistral-7b-v0.1.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

より高度なhuggingface-cliのダウンロードの使い方

パターンを使用して複数のファイルを一度にダウンロードすることもできます。

huggingface-cli download TheBloke/Mistral-7B-v0.1-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'

huggingface-cliでのダウンロードに関する詳細なドキュメントは、HF -> Hub Python Library -> Download files -> Download from the CLIを参照してください。

高速接続（1Gbit/s以上）でのダウンロードを加速するには、hf_transferをインストールします。

pip3 install hf_transfer

そして、環境変数HF_HUB_ENABLE_HF_TRANSFERを1に設定します。

HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Mistral-7B-v0.1-GGUF mistral-7b-v0.1.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windowsコマンドラインのユーザーは、ダウンロードコマンドの前にset HF_HUB_ENABLE_HF_TRANSFER=1を実行して環境変数を設定できます。

実行例

llama.cppコマンドの例

llama.cppのコミットd0cee0d以降を使用していることを確認してください。

./main -ngl 32 -m mistral-7b-v0.1.Q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "{prompt}"

-ngl 32を、GPUにオフロードするレイヤーの数に変更してください。GPUアクセラレーションがない場合は、このオプションを削除してください。

シーケンス長は4096以下にすることができます。Mistralのスライディングウィンドウシーケンス長は、まだllama.cppでサポートされていないため、4096より長いシーケンス長はサポートされていません。

チャットスタイルの会話を行いたい場合は、-p <PROMPT>引数を-i -insに置き換えてください。

その他のパラメータとその使い方については、llama.cppのドキュメントを参照してください。

text-generation-webuiでの実行方法

詳細な手順はこちら: text-generation-webui/docs/llama.cpp.md。

Pythonコードからの実行方法

llama-cpp-pythonまたはctransformersライブラリを使用して、PythonからGGUFモデルを使用できます。

ctransformersを使用してこのモデルをPythonコードでロードする方法

注: Mistralモデルでctransformersをテストしていませんが、model_typeをllamaに設定すると動作する可能性があります。

まずパッケージをインストールする

システムに応じて、以下のコマンドのいずれかを実行します。

# GPUアクセラレーションのない基本的なctransformers
pip install ctransformers
# またはCUDA GPUアクセラレーション付き
pip install ctransformers[cuda]
# またはAMD ROCm GPUアクセラレーション付き（Linuxのみ）
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# またはmacOSシステム専用のMetal GPUアクセラレーション付き
CT_METAL=1 pip install ctransformers --no-binary ctransformers

シンプルなctransformersのサンプルコード

from ctransformers import AutoModelForCausalLM

# gpu_layersを、GPUにオフロードするレイヤーの数に設定します。システムでGPUアクセラレーションが利用できない場合は、0に設定します。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Mistral-7B-v0.1-GGUF", model_file="mistral-7b-v0.1.Q4_K_M.gguf", model_type="mistral", gpu_layers=50)

print(llm("AI is going to"))

LangChainとの使い方

LangChainでllama-cpp-pythonとctransformersを使用するガイドは以下の通りです。

Discord

これらのモデルやAI全般についてのさらなるサポートや議論に参加するには、以下に参加してください。 TheBloke AIのDiscordサーバー

謝辞と貢献方法

chirper.aiチームに感謝します！ gpus.llm-utils.orgのClayに感謝します！

多くの方から貢献したいという質問をいただいています。私はモデルを提供し、人々を助けることが好きで、それにもっと時間を費やし、微調整/トレーニングなどの新しいプロジェクトにも進出できることを楽しみにしています。

貢献できる方は、大変感謝していただけます。これにより、私がより多くのモデルを提供し続け、新しいAIプロジェクトの作業を開始するのに役立ちます。

寄付者は、すべてのAI/LLM/モデルに関する質問やリクエストに対する優先サポート、プライベートDiscordルームへのアクセス、その他の特典を受けることができます。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別な感謝: Aemon Algiz。

Patreonでの特別な言及: Alicia Loh, Stephen Murray, K, Ajan Kanaga, RoA, Magnesian, Deo Leter, Olakabola, Eugene Pentland, zynix, Deep Realms, Raymond Fosdick, Elijah Stavena, Iucharbius, Erik Bjäreholt, Luis Javier Navarrete Lozano, Nicholas, theTransient, John Detwiler, alfie_i, knownsqashed, Mano Prime, Willem Michiel, Enrico Ros, LangChain4j, OG, Michael Dempsey, Pierre Kircher, Pedro Madruga, James Bentley, Thomas Belote, Luke @flexchar, Leonard Tan, Johann-