base_model: Open-Orca/Mistral-7B-OpenOrca
datasets:
-
Open-Orca/OpenOrca
inference: false
language:
-
en
library_name: transformers
license: apache-2.0
model_creator: OpenOrca
model_name: Mistral 7B OpenOrca
model_type: mistral
pipeline_tag: text-generation
prompt_template: '<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
'
quantized_by: TheBloke
Mistral 7B OpenOrca - GGUF
説明
このリポジトリには、OpenOrcaのMistral 7B OpenOrcaのGGUF形式モデルファイルが含まれています。
GGUFについて
GGUFは、2023年8月21日にllama.cppチームによって導入された新しい形式です。これは、llama.cppによってサポートされなくなったGGMLの代替です。
以下は、GGUFをサポートすることが知られているクライアントとライブラリの不完全なリストです:
- llama.cpp。GGUFのソースプロジェクト。CLIとサーバーオプションを提供します。
- text-generation-webui、最も広く使用されているWeb UIで、多くの機能と強力な拡張機能を備えています。GPUアクセラレーションをサポートします。
- KoboldCpp、すべてのプラットフォームとGPUアーキテクチャでGPUアクセラレーションを備えた完全な機能を備えたWeb UI。特にストーリーテリングに適しています。
- LM Studio、WindowsとmacOS(Silicon)向けの使いやすく強力なローカルGUIで、GPUアクセラレーションを備えています。
- LoLLMS Web UI、多くの興味深いユニークな機能を備えた素晴らしいWeb UIで、簡単なモデル選択のための完全なモデルライブラリを含みます。
- Faraday.dev、WindowsとmacOS(SiliconとIntelの両方)向けの魅力的で使いやすいキャラクターベースのチャットGUIで、GPUアクセラレーションを備えています。
- ctransformers、GPUアクセラレーション、LangChainサポート、OpenAI互換のAIサーバを備えたPythonライブラリ。
- llama-cpp-python、GPUアクセラレーション、LangChainサポート、OpenAI互換のAPIサーバを備えたPythonライブラリ。
- candle、パフォーマンスに焦点を当てたRust MLフレームワークで、GPUサポートと使いやすさを含みます。
利用可能なリポジトリ
プロンプトテンプレート: ChatML
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
互換性
これらの量子化されたGGUFv2ファイルは、2023年8月27日以降のllama.cppと互換性があります。d0cee0dのコミット時点で。
また、多くのサードパーティのUIやライブラリとも互換性があります - このREADMEの上部にあるリストをご覧ください。
量子化方法の説明
クリックして詳細を表示
利用可能な新しい方法は以下の通りです:
- GGML_TYPE_Q2_K - "type-1" 2ビット量子化、16ブロックを含むスーパーブロック、各ブロックは16ウェイト。ブロックスケールと最小値は4ビットで量子化されます。これにより、実質的に1ウェイトあたり2.5625ビット(bpw)が使用されます。
- GGML_TYPE_Q3_K - "type-0" 3ビット量子化、16ブロックを含むスーパーブロック、各ブロックは16ウェイト。スケールは6ビットで量子化されます。これにより、実質的に1ウェイトあたり3.4375 bpwが使用されます。
- GGML_TYPE_Q4_K - "type-1" 4ビット量子化、8ブロックを含むスーパーブロック、各ブロックは32ウェイト。スケールと最小値は6ビットで量子化されます。これにより、実質的に1ウェイトあたり4.5 bpwが使用されます。
- GGML_TYPE_Q5_K - "type-1" 5ビット量子化。GGML_TYPE_Q4_Kと同じスーパーブロック構造で、5.5 bpwが使用されます。
- GGML_TYPE_Q6_K - "type-0" 6ビット量子化。16ブロックを含むスーパーブロック、各ブロックは16ウェイト。スケールは8ビットで量子化されます。これにより、実質的に1ウェイトあたり6.5625 bpwが使用されます。
以下の「提供ファイル」表で、どのファイルがどの方法を使用しているか、そしてどのように使用しているかを確認してください。
提供ファイル
注: 上記のRAM数値はGPUオフロードなしを想定しています。レイヤーがGPUにオフロードされると、RAM使用量が減少し、代わりにVRAMが使用されます。