モデル概要
モデル特徴
モデル能力
使用事例
🚀 EM German Leo Mistral - GGUF
このモデルは、Jan Philipp Harries氏によって開発されたEM German Leo MistralモデルのGGUF形式のモデルファイルを提供します。GGUF形式は、llama.cppでの使用に最適化されており、様々なクライアントやライブラリでの利用が可能です。

TheBlokeのLLMの仕事は、andreessen horowitz (a16z)からの助成金によって支援されています
📚 ドキュメント
モデル情報
属性 | 詳情 |
---|---|
モデル作成者 | Jan Philipp Harries |
元のモデル | EM German Leo Mistral |
モデルタイプ | mistral |
パイプラインタグ | text-generation |
プロンプトテンプレート | Du bist ein hilfreicher Assistent. USER: {prompt} ASSISTANT: |
量子化者 | TheBloke |
タグ | pytorch, german, deutsch, mistral, leolm |
ライセンス | apache-2.0 |
モデルの説明
このリポジトリには、Jan Philipp HarriesのEM German Leo MistralのGGUF形式のモデルファイルが含まれています。
GGUFについて
GGUFは、2023年8月21日にllama.cppチームによって導入された新しい形式です。これは、llama.cppでサポートされなくなったGGMLの代替形式です。
以下は、GGUFをサポートすることが知られているクライアントとライブラリの不完全なリストです。
- llama.cpp。GGUFのソースプロジェクトです。CLIとサーバーオプションを提供します。
- text-generation-webui、最も広く使用されているWeb UIで、多くの機能と強力な拡張機能を備えています。GPUアクセラレーションをサポートしています。
- KoboldCpp、全機能のWeb UIで、すべてのプラットフォームとGPUアーキテクチャでGPUアクセラレーションをサポートしています。特にストーリーテリングに適しています。
- LM Studio、WindowsとmacOS (Silicon)用の使いやすく強力なローカルGUIで、GPUアクセラレーションをサポートしています。
- LoLLMS Web UI、多くの興味深い独自の機能を備えた素晴らしいWeb UIで、簡単なモデル選択のための完全なモデルライブラリを含んでいます。
- Faraday.dev、WindowsとmacOS (SiliconとIntelの両方)用の魅力的で使いやすいキャラクターベースのチャットGUIで、GPUアクセラレーションをサポートしています。
- ctransformers、GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAIサーバーを備えたPythonライブラリです。
- llama-cpp-python、GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAPIサーバーを備えたPythonライブラリです。
- candle、パフォーマンスに重点を置いたRustのMLフレームワークで、GPUサポートと使いやすさを備えています。
利用可能なリポジトリ
- GPU推論用のAWQモデル
- 複数の量子化パラメータオプションを持つGPU推論用のGPTQモデル
- CPU+GPU推論用の2、3、4、5、6、および8ビットのGGUFモデル
- GPU推論とさらなる変換用の、Jan Philipp Harriesの元の量子化されていないfp16モデル(pytorch形式)
プロンプトテンプレート: EmGerman
Du bist ein hilfreicher Assistent. USER: {prompt} ASSISTANT:
互換性
これらの量子化されたGGUFv2ファイルは、8月27日以降のllama.cpp(コミットd0cee0d)と互換性があります。
また、多くのサードパーティのUIやライブラリとも互換性があります。詳細は、このREADMEの上部にあるリストを参照してください。
量子化方法の説明
詳細を表示するにはクリック
利用可能な新しい方法は次のとおりです。
- GGML_TYPE_Q2_K - 16個のブロックを含むスーパーブロック内の「タイプ1」の2ビット量子化。各ブロックには16個の重みがあります。ブロックのスケールと最小値は4ビットで量子化されます。これにより、重みごとに実効的に2.5625ビット(bpw)が使用されます。
- GGML_TYPE_Q3_K - 16個のブロックを含むスーパーブロック内の「タイプ0」の3ビット量子化。各ブロックには16個の重みがあります。スケールは6ビットで量子化されます。これにより、3.4375bpwが使用されます。
- GGML_TYPE_Q4_K - 8個のブロックを含むスーパーブロック内の「タイプ1」の4ビット量子化。各ブロックには32個の重みがあります。スケールと最小値は6ビットで量子化されます。これにより、4.5bpwが使用されます。
- GGML_TYPE_Q5_K - 「タイプ1」の5ビット量子化。GGML_TYPE_Q4_Kと同じスーパーブロック構造で、5.5bpwになります。
- GGML_TYPE_Q6_K - 「タイプ0」の6ビット量子化。16個のブロックを含むスーパーブロック。各ブロックには16個の重みがあります。スケールは8ビットで量子化されます。これにより、6.5625bpwが使用されます。
どのファイルがどの方法を使用しているか、およびその方法については、以下の提供ファイルの表を参照してください。
提供されるファイル
名前 | 量子化方法 | ビット数 | サイズ | 必要な最大RAM | 使用ケース |
---|---|---|---|---|---|
em_german_leo_mistral.Q2_K.gguf | Q2_K | 2 | 3.08 GB | 5.58 GB | 最も小さいが、品質が大幅に低下する - ほとんどの目的には推奨されない |
em_german_leo_mistral.Q3_K_S.gguf | Q3_K_S | 3 | 3.16 GB | 5.66 GB | 非常に小さいが、品質が大幅に低下する |
em_german_leo_mistral.Q3_K_M.gguf | Q3_K_M | 3 | 3.52 GB | 6.02 GB | 非常に小さいが、品質が大幅に低下する |
em_german_leo_mistral.Q3_K_L.gguf | Q3_K_L | 3 | 3.82 GB | 6.32 GB | 小さいが、品質が大幅に低下する |
em_german_leo_mistral.Q4_0.gguf | Q4_0 | 4 | 4.11 GB | 6.61 GB | レガシー; 小さいが、品質が非常に大幅に低下する - Q3_K_Mの使用を推奨 |
em_german_leo_mistral.Q4_K_S.gguf | Q4_K_S | 4 | 4.14 GB | 6.64 GB | 小さいが、品質が大幅に低下する |
em_german_leo_mistral.Q4_K_M.gguf | Q4_K_M | 4 | 4.37 GB | 6.87 GB | 中程度で、バランスの良い品質 - 推奨 |
em_german_leo_mistral.Q5_0.gguf | Q5_0 | 5 | 5.00 GB | 7.50 GB | レガシー; 中程度で、バランスの良い品質 - Q4_K_Mの使用を推奨 |
em_german_leo_mistral.Q5_K_S.gguf | Q5_K_S | 5 | 5.00 GB | 7.50 GB | 大きいが、品質の低下が少ない - 推奨 |
em_german_leo_mistral.Q5_K_M.gguf | Q5_K_M | 5 | 5.13 GB | 7.63 GB | 大きいが、品質の低下が非常に少ない - 推奨 |
em_german_leo_mistral.Q6_K.gguf | Q6_K | 6 | 5.94 GB | 8.44 GB | 非常に大きいが、品質の低下が非常に少ない |
em_german_leo_mistral.Q8_0.gguf | Q8_0 | 8 | 7.70 GB | 10.20 GB | 非常に大きいが、品質の低下が非常に少ない - 推奨されない |
注意: 上記のRAMの数値は、GPUオフロードがないことを前提としています。レイヤーがGPUにオフロードされると、これによりRAMの使用量が減少し、代わりにVRAMが使用されます。
GGUFファイルのダウンロード方法
手動でダウンロードする方への注意: ほとんどの場合、リポジトリ全体をクローンする必要はありません!複数の異なる量子化形式が提供されており、ほとんどのユーザーは単一のファイルを選択してダウンロードするだけです。
以下のクライアント/ライブラリは、利用可能なモデルのリストを提供し、自動的にモデルをダウンロードします。
- LM Studio
- LoLLMS Web UI
- Faraday.dev
text-generation-webui
でのダウンロード方法
「Download Model」の下で、モデルリポジトリ TheBloke/em_german_leo_mistral-GGUF
を入力し、その下にダウンロードする特定のファイル名(例: em_german_leo_mistral.Q4_K_M.gguf)を入力します。
次に、「Download」をクリックします。
コマンドラインでのダウンロード方法(複数のファイルを一度に含む)
huggingface-hub
Pythonライブラリの使用をお勧めします。
pip3 install huggingface-hub
次に、以下のようなコマンドで、任意の個々のモデルファイルを高速で現在のディレクトリにダウンロードできます。
huggingface-cli download TheBloke/em_german_leo_mistral-GGUF em_german_leo_mistral.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
より高度なhuggingface-cliのダウンロードの使用方法
パターンを使用して複数のファイルを一度にダウンロードすることもできます。
huggingface-cli download TheBloke/em_german_leo_mistral-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
huggingface-cli
でのダウンロードに関する詳細なドキュメントについては、HF -> Hub Python Library -> Download files -> Download from the CLI を参照してください。
高速接続(1Gbit/s以上)でのダウンロードを高速化するには、hf_transfer
をインストールします。
pip3 install hf_transfer
そして、環境変数 HF_HUB_ENABLE_HF_TRANSFER
を 1
に設定します。
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/em_german_leo_mistral-GGUF em_german_leo_mistral.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Windowsコマンドラインのユーザーは、ダウンロードコマンドの前に set HF_HUB_ENABLE_HF_TRANSFER=1
を実行して環境変数を設定できます。
llama.cppでの実行例
llama.cpp
が8月27日以降のバージョン(コミットd0cee0d 以降)であることを確認してください。
./main -ngl 32 -m em_german_leo_mistral.Q4_K_M.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "Du bist ein hilfreicher Assistent. USER: {prompt} ASSISTANT:"
-ngl 32
をGPUにオフロードするレイヤーの数に変更します。GPUアクセラレーションがない場合は、このオプションを削除します。
-c 2048
を目的のシーケンス長に変更します。拡張シーケンスモデル(例: 8K、16K、32K)の場合、必要なRoPEスケーリングパラメータはGGUFファイルから読み取られ、llama.cppによって自動的に設定されます。
チャットスタイルの会話を行いたい場合は、-p <PROMPT>
引数を -i -ins
に置き換えます。
その他のパラメータとその使用方法については、llama.cppのドキュメント を参照してください。
text-generation-webuiでの実行方法
詳細な手順は、text-generation-webui/docs/llama.cpp.md を参照してください。
Pythonコードからの実行方法
llama-cpp-python または ctransformers ライブラリを使用して、PythonからGGUFモデルを使用できます。
ctransformersを使用してこのモデルをPythonコードでロードする方法
まずパッケージをインストールする
システムに応じて、以下のコマンドのいずれかを実行します。
# GPUアクセラレーションなしの基本的なctransformers
pip install ctransformers
# またはCUDA GPUアクセラレーション付き
pip install ctransformers[cuda]
# またはAMD ROCm GPUアクセラレーション付き(Linuxのみ)
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# またはmacOSシステム専用のMetal GPUアクセラレーション付き
CT_METAL=1 pip install ctransformers --no-binary ctransformers
シンプルなctransformersのサンプルコード
from ctransformers import AutoModelForCausalLM
# gpu_layersをGPUにオフロードするレイヤーの数に設定します。システムでGPUアクセラレーションが利用できない場合は、0に設定します。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/em_german_leo_mistral-GGUF", model_file="em_german_leo_mistral.Q4_K_M.gguf", model_type="mistral", gpu_layers=50)
print(llm("AI is going to"))
LangChainでの使用方法
LangChainでllama-cpp-pythonとctransformersを使用する方法に関するガイドは次のとおりです。
Discord
これらのモデルやAI全般に関するさらなるサポートや議論に参加するには、以下に参加してください。 TheBloke AIのDiscordサーバー
謝辞と貢献方法
chirper.ai チームに感謝します!
gpus.llm-utils.org のClayに感謝します!
多くの人から貢献できるかどうかを尋ねられました。私はモデルを提供し、人々を助けることが好きで、もっと多くの時間を費やし、微調整/トレーニングなどの新しいプロジェクトにも進出できることを楽しみにしています。
貢献できる方は、大いに感謝して受け取り、より多くのモデルを提供し続け、新しいAIプロジェクトの作業を開始するのに役立ちます。
寄付者は、すべてのAI/LLM/モデルに関する質問やリクエストに対して優先的なサポートを受け、プライベートなDiscordルームへのアクセス権やその他の特典を享受できます。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特別な感謝: Aemon Algiz。
Patreonでの特別な言及: Pierre Kircher, Stanislav Ovsiannikov, Michael Levine, Eugene Pentland, Andrey, 준교 김, Randy H, Fred von Graf, Artur Olbinski, Caitlyn Gatomon,



