EM German Leo Mistral オープンソースドイツ語大規模言語モデル

ホーム

Em German Leo Mistral GGUF

TheBlokeによって開発

EM German Leo Mistral はMistralアーキテクチャを基にしたドイツ語大規模言語モデルで、ドイツ語テキスト生成タスクに特化しています。

大規模言語モデル

Transformers

ドイツ語オープンソースライセンス:Apache-2.0 #ドイツ語最適化 #Mistralアーキテクチャ #テキスト生成

ダウンロード数 1,041

リリース時間 : 10/10/2023

モデル概要

このモデルはMistralアーキテクチャを基にしたドイツ語大規模言語モデルで、会話、質問応答、コンテンツ作成などのドイツ語テキスト生成タスクに適しています。

モデル特徴

ドイツ語最適化

ドイツ語に特化して最適化されており、高品質なドイツ語テキストを生成できます。

Mistralアーキテクチャ採用

Mistralアーキテクチャの効率性と性能優位性を活用しています。

量子化サポート

様々な量子化バージョンを提供し、異なるハードウェア環境に対応しています。

モデル能力

ドイツ語テキスト生成

対話システム

質問応答システム

コンテンツ作成

使用事例

カスタマーサポート

ドイツ語カスタマーサービスチャットボット

ドイツ語の顧客からの問い合わせや問題を処理するために使用されます。

顧客満足度の向上、人間のカスタマーサポート負担の軽減。

コンテンツ作成

ドイツ語記事生成

ドイツ語の記事やブログなどを自動生成します。

コンテンツ作成効率の向上、時間の節約。

🚀 EM German Leo Mistral - GGUF

このモデルは、Jan Philipp Harries氏によって開発されたEM German Leo MistralモデルのGGUF形式のモデルファイルを提供します。GGUF形式は、llama.cppでの使用に最適化されており、様々なクライアントやライブラリでの利用が可能です。

チャットとサポート: TheBlokeのDiscordサーバー

貢献したいですか？TheBlokeのPatreonページ

TheBlokeのLLMの仕事は、andreessen horowitz (a16z)からの助成金によって支援されています

📚 ドキュメント

モデル情報

属性	詳情
モデル作成者	Jan Philipp Harries
元のモデル	EM German Leo Mistral
モデルタイプ	mistral
パイプラインタグ	text-generation
プロンプトテンプレート	`Du bist ein hilfreicher Assistent. USER: {prompt} ASSISTANT:`
量子化者	TheBloke
タグ	pytorch, german, deutsch, mistral, leolm
ライセンス	apache-2.0

モデルの説明

このリポジトリには、Jan Philipp HarriesのEM German Leo MistralのGGUF形式のモデルファイルが含まれています。

GGUFについて

GGUFは、2023年8月21日にllama.cppチームによって導入された新しい形式です。これは、llama.cppでサポートされなくなったGGMLの代替形式です。

以下は、GGUFをサポートすることが知られているクライアントとライブラリの不完全なリストです。

llama.cpp。GGUFのソースプロジェクトです。CLIとサーバーオプションを提供します。
text-generation-webui、最も広く使用されているWeb UIで、多くの機能と強力な拡張機能を備えています。GPUアクセラレーションをサポートしています。
KoboldCpp、全機能のWeb UIで、すべてのプラットフォームとGPUアーキテクチャでGPUアクセラレーションをサポートしています。特にストーリーテリングに適しています。
LM Studio、WindowsとmacOS (Silicon)用の使いやすく強力なローカルGUIで、GPUアクセラレーションをサポートしています。
LoLLMS Web UI、多くの興味深い独自の機能を備えた素晴らしいWeb UIで、簡単なモデル選択のための完全なモデルライブラリを含んでいます。
Faraday.dev、WindowsとmacOS (SiliconとIntelの両方)用の魅力的で使いやすいキャラクターベースのチャットGUIで、GPUアクセラレーションをサポートしています。
ctransformers、GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAIサーバーを備えたPythonライブラリです。
llama-cpp-python、GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAPIサーバーを備えたPythonライブラリです。
candle、パフォーマンスに重点を置いたRustのMLフレームワークで、GPUサポートと使いやすさを備えています。

利用可能なリポジトリ

プロンプトテンプレート: EmGerman

Du bist ein hilfreicher Assistent. USER: {prompt} ASSISTANT:

互換性

これらの量子化されたGGUFv2ファイルは、8月27日以降のllama.cpp（コミットd0cee0d）と互換性があります。

また、多くのサードパーティのUIやライブラリとも互換性があります。詳細は、このREADMEの上部にあるリストを参照してください。

量子化方法の説明

詳細を表示するにはクリック

利用可能な新しい方法は次のとおりです。

GGML_TYPE_Q2_K - 16個のブロックを含むスーパーブロック内の「タイプ1」の2ビット量子化。各ブロックには16個の重みがあります。ブロックのスケールと最小値は4ビットで量子化されます。これにより、重みごとに実効的に2.5625ビット（bpw）が使用されます。
GGML_TYPE_Q3_K - 16個のブロックを含むスーパーブロック内の「タイプ0」の3ビット量子化。各ブロックには16個の重みがあります。スケールは6ビットで量子化されます。これにより、3.4375bpwが使用されます。
GGML_TYPE_Q4_K - 8個のブロックを含むスーパーブロック内の「タイプ1」の4ビット量子化。各ブロックには32個の重みがあります。スケールと最小値は6ビットで量子化されます。これにより、4.5bpwが使用されます。
GGML_TYPE_Q5_K - 「タイプ1」の5ビット量子化。GGML_TYPE_Q4_Kと同じスーパーブロック構造で、5.5bpwになります。
GGML_TYPE_Q6_K - 「タイプ0」の6ビット量子化。16個のブロックを含むスーパーブロック。各ブロックには16個の重みがあります。スケールは8ビットで量子化されます。これにより、6.5625bpwが使用されます。

どのファイルがどの方法を使用しているか、およびその方法については、以下の提供ファイルの表を参照してください。

提供されるファイル

名前	量子化方法	ビット数	サイズ	必要な最大RAM	使用ケース
em_german_leo_mistral.Q2_K.gguf	Q2_K	2	3.08 GB	5.58 GB	最も小さいが、品質が大幅に低下する - ほとんどの目的には推奨されない
em_german_leo_mistral.Q3_K_S.gguf	Q3_K_S	3	3.16 GB	5.66 GB	非常に小さいが、品質が大幅に低下する
em_german_leo_mistral.Q3_K_M.gguf	Q3_K_M	3	3.52 GB	6.02 GB	非常に小さいが、品質が大幅に低下する
em_german_leo_mistral.Q3_K_L.gguf	Q3_K_L	3	3.82 GB	6.32 GB	小さいが、品質が大幅に低下する
em_german_leo_mistral.Q4_0.gguf	Q4_0	4	4.11 GB	6.61 GB	レガシー; 小さいが、品質が非常に大幅に低下する - Q3_K_Mの使用を推奨
em_german_leo_mistral.Q4_K_S.gguf	Q4_K_S	4	4.14 GB	6.64 GB	小さいが、品質が大幅に低下する
em_german_leo_mistral.Q4_K_M.gguf	Q4_K_M	4	4.37 GB	6.87 GB	中程度で、バランスの良い品質 - 推奨
em_german_leo_mistral.Q5_0.gguf	Q5_0	5	5.00 GB	7.50 GB	レガシー; 中程度で、バランスの良い品質 - Q4_K_Mの使用を推奨
em_german_leo_mistral.Q5_K_S.gguf	Q5_K_S	5	5.00 GB	7.50 GB	大きいが、品質の低下が少ない - 推奨
em_german_leo_mistral.Q5_K_M.gguf	Q5_K_M	5	5.13 GB	7.63 GB	大きいが、品質の低下が非常に少ない - 推奨
em_german_leo_mistral.Q6_K.gguf	Q6_K	6	5.94 GB	8.44 GB	非常に大きいが、品質の低下が非常に少ない
em_german_leo_mistral.Q8_0.gguf	Q8_0	8	7.70 GB	10.20 GB	非常に大きいが、品質の低下が非常に少ない - 推奨されない

注意: 上記のRAMの数値は、GPUオフロードがないことを前提としています。レイヤーがGPUにオフロードされると、これによりRAMの使用量が減少し、代わりにVRAMが使用されます。

GGUFファイルのダウンロード方法

手動でダウンロードする方への注意: ほとんどの場合、リポジトリ全体をクローンする必要はありません！複数の異なる量子化形式が提供されており、ほとんどのユーザーは単一のファイルを選択してダウンロードするだけです。

以下のクライアント/ライブラリは、利用可能なモデルのリストを提供し、自動的にモデルをダウンロードします。

LM Studio
LoLLMS Web UI
Faraday.dev

`text-generation-webui`でのダウンロード方法

「Download Model」の下で、モデルリポジトリ TheBloke/em_german_leo_mistral-GGUF を入力し、その下にダウンロードする特定のファイル名（例: em_german_leo_mistral.Q4_K_M.gguf）を入力します。

次に、「Download」をクリックします。

コマンドラインでのダウンロード方法（複数のファイルを一度に含む）

huggingface-hub Pythonライブラリの使用をお勧めします。

pip3 install huggingface-hub

次に、以下のようなコマンドで、任意の個々のモデルファイルを高速で現在のディレクトリにダウンロードできます。

huggingface-cli download TheBloke/em_german_leo_mistral-GGUF em_german_leo_mistral.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

より高度なhuggingface-cliのダウンロードの使用方法

パターンを使用して複数のファイルを一度にダウンロードすることもできます。

huggingface-cli download TheBloke/em_german_leo_mistral-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'

huggingface-cli でのダウンロードに関する詳細なドキュメントについては、HF -> Hub Python Library -> Download files -> Download from the CLI を参照してください。

高速接続（1Gbit/s以上）でのダウンロードを高速化するには、hf_transfer をインストールします。

pip3 install hf_transfer

そして、環境変数 HF_HUB_ENABLE_HF_TRANSFER を 1 に設定します。

HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/em_german_leo_mistral-GGUF em_german_leo_mistral.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windowsコマンドラインのユーザーは、ダウンロードコマンドの前に set HF_HUB_ENABLE_HF_TRANSFER=1 を実行して環境変数を設定できます。

llama.cppでの実行例

llama.cpp が8月27日以降のバージョン（コミットd0cee0d 以降）であることを確認してください。

./main -ngl 32 -m em_german_leo_mistral.Q4_K_M.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "Du bist ein hilfreicher Assistent. USER: {prompt} ASSISTANT:"

-ngl 32 をGPUにオフロードするレイヤーの数に変更します。GPUアクセラレーションがない場合は、このオプションを削除します。

-c 2048 を目的のシーケンス長に変更します。拡張シーケンスモデル（例: 8K、16K、32K）の場合、必要なRoPEスケーリングパラメータはGGUFファイルから読み取られ、llama.cppによって自動的に設定されます。

チャットスタイルの会話を行いたい場合は、-p <PROMPT> 引数を -i -ins に置き換えます。

その他のパラメータとその使用方法については、llama.cppのドキュメントを参照してください。

text-generation-webuiでの実行方法

詳細な手順は、text-generation-webui/docs/llama.cpp.md を参照してください。

Pythonコードからの実行方法

llama-cpp-python または ctransformers ライブラリを使用して、PythonからGGUFモデルを使用できます。

ctransformersを使用してこのモデルをPythonコードでロードする方法

まずパッケージをインストールする

システムに応じて、以下のコマンドのいずれかを実行します。

# GPUアクセラレーションなしの基本的なctransformers
pip install ctransformers
# またはCUDA GPUアクセラレーション付き
pip install ctransformers[cuda]
# またはAMD ROCm GPUアクセラレーション付き（Linuxのみ）
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# またはmacOSシステム専用のMetal GPUアクセラレーション付き
CT_METAL=1 pip install ctransformers --no-binary ctransformers

シンプルなctransformersのサンプルコード

from ctransformers import AutoModelForCausalLM

# gpu_layersをGPUにオフロードするレイヤーの数に設定します。システムでGPUアクセラレーションが利用できない場合は、0に設定します。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/em_german_leo_mistral-GGUF", model_file="em_german_leo_mistral.Q4_K_M.gguf", model_type="mistral", gpu_layers=50)

print(llm("AI is going to"))

LangChainでの使用方法

LangChainでllama-cpp-pythonとctransformersを使用する方法に関するガイドは次のとおりです。

Discord

これらのモデルやAI全般に関するさらなるサポートや議論に参加するには、以下に参加してください。 TheBloke AIのDiscordサーバー

謝辞と貢献方法

chirper.ai チームに感謝します！

gpus.llm-utils.org のClayに感謝します！

多くの人から貢献できるかどうかを尋ねられました。私はモデルを提供し、人々を助けることが好きで、もっと多くの時間を費やし、微調整/トレーニングなどの新しいプロジェクトにも進出できることを楽しみにしています。

貢献できる方は、大いに感謝して受け取り、より多くのモデルを提供し続け、新しいAIプロジェクトの作業を開始するのに役立ちます。

寄付者は、すべてのAI/LLM/モデルに関する質問やリクエストに対して優先的なサポートを受け、プライベートなDiscordルームへのアクセス権やその他の特典を享受できます。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別な感謝: Aemon Algiz。

Patreonでの特別な言及: Pierre Kircher, Stanislav Ovsiannikov, Michael Levine, Eugene Pentland, Andrey, 준교 김, Randy H, Fred von Graf, Artur Olbinski, Caitlyn Gatomon,