モデル概要
モデル特徴
モデル能力
使用事例
🚀 [MaziyarPanahi/OPEN-SOLAR-KO-10.7B-GGUF]
[MaziyarPanahi/OPEN-SOLAR-KO-10.7B-GGUF]は、[beomi/OPEN-SOLAR-KO-10.7B]のGGUF形式のモデルファイルを含んでいます。これにより、ユーザーは特定の量子化形式のモデルを選択して利用できます。
🚀 クイックスタート
このセクションでは、[MaziyarPanahi/OPEN-SOLAR-KO-10.7B-GGUF]モデルの基本的な使い方を説明します。
✨ 主な機能
- 複数の量子化形式(2-bit、3-bit、4-bit、5-bit、6-bit、8-bit)をサポートしています。
- GGUF形式を採用しており、llama.cppなどの多くのクライアントやライブラリで利用できます。
📦 インストール
GGUFファイルのダウンロード方法
手動ダウンロードの注意点:通常、リポジトリ全体をクローンする必要はありません。複数の量子化形式が提供されているため、ほとんどのユーザーは1つのファイルを選択してダウンロードするだけです。
以下のクライアント/ライブラリは、利用可能なモデルのリストを提供し、自動的にモデルをダウンロードします。
text-generation-webui
でのダウンロード方法
「Download Model」の下に、モデルのリポジトリ MaziyarPanahi/OPEN-SOLAR-KO-10.7B-GGUF を入力し、その下にダウンロードする特定のファイル名(例:OPEN-SOLAR-KO-10.7B-GGUF.Q4_K_M.gguf)を入力します。そして、「Download」をクリックします。
コマンドラインでのダウンロード方法
huggingface-hub
Pythonライブラリを使用することをおすすめします。
pip3 install huggingface-hub
次に、以下のようなコマンドで任意のモデルファイルを現在のディレクトリに高速でダウンロードできます。
huggingface-cli download MaziyarPanahi/OPEN-SOLAR-KO-10.7B-GGUF OPEN-SOLAR-KO-10.7B-GGUF.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
高度なhuggingface-cli
のダウンロード方法
パターンを指定して複数のファイルを一度にダウンロードすることもできます。
huggingface-cli download [MaziyarPanahi/OPEN-SOLAR-KO-10.7B-GGUF](https://huggingface.co/MaziyarPanahi/OPEN-SOLAR-KO-10.7B-GGUF) --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
huggingface-cli
でのダウンロードに関する詳細なドキュメントは、HF -> Hub Python Library -> Download files -> Download from the CLI を参照してください。
高速な接続(1Gbit/s以上)でのダウンロードを加速するには、hf_transfer
をインストールします。
pip3 install hf_transfer
そして、環境変数HF_HUB_ENABLE_HF_TRANSFER
を1
に設定します。
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download MaziyarPanahi/OPEN-SOLAR-KO-10.7B-GGUF OPEN-SOLAR-KO-10.7B-GGUF.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Windowsコマンドラインユーザーは、ダウンロードコマンドの前に set HF_HUB_ENABLE_HF_TRANSFER=1
を実行して環境変数を設定できます。
💻 使用例
基本的な使用法
from llama_cpp import Llama
# Set gpu_layers to the number of layers to offload to GPU. Set to 0 if no GPU acceleration is available on your system.
llm = Llama(
model_path="./OPEN-SOLAR-KO-10.7B-GGUF.Q4_K_M.gguf", # Download the model file first
n_ctx=32768, # The max sequence length to use - note that longer sequence lengths require much more resources
n_threads=8, # The number of CPU threads to use, tailor to your system and the resulting performance
n_gpu_layers=35 # The number of layers to offload to GPU, if you have GPU acceleration available
)
# Simple inference example
output = llm(
"<|im_start|>system\n{system_message}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant", # Prompt
max_tokens=512, # Generate up to 512 tokens
stop=["</s>"], # Example stop token - not necessarily correct for this specific model! Please check before using.
echo=True # Whether to echo the prompt
)
# Chat Completion API
llm = Llama(model_path="./OPEN-SOLAR-KO-10.7B-GGUF.Q4_K_M.gguf", chat_format="llama-2") # Set chat_format according to the model you are using
llm.create_chat_completion(
messages = [
{"role": "system", "content": "You are a story writing assistant."},
{
"role": "user",
"content": "Write a story about llamas."
}
]
)
高度な使用法
./main -ngl 35 -m OPEN-SOLAR-KO-10.7B-GGUF.Q4_K_M.gguf --color -c 32768 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "<|im_start|>system\n{system_message}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant"
-ngl 32
をGPUにオフロードするレイヤー数に変更します。GPUアクセラレーションがない場合は削除します。-c 32768
を希望するシーケンス長に変更します。拡張シーケンスモデル(例:8K、16K、32K)の場合、必要なRoPEスケーリングパラメータはGGUFファイルから読み取られ、llama.cppによって自動的に設定されます。ただし、より長いシーケンス長はより多くのリソースを必要とするため、この値を減らす必要がある場合があります。- チャット形式の会話を行いたい場合は、
-p <PROMPT>
引数を-i -ins
に置き換えます。
その他のパラメータとその使用方法については、the llama.cpp documentation を参照してください。
📚 ドキュメント
GGUFについて
GGUFは、2023年8月21日にllama.cppチームによって導入された新しい形式です。これは、llama.cppでサポートされなくなったGGMLの代替品です。
以下は、GGUFをサポートすることが知られているクライアントとライブラリの不完全なリストです。
- llama.cpp:GGUFのソースプロジェクトで、CLIとサーバーオプションを提供します。
- text-generation-webui:最も広く使用されているWeb UIで、多くの機能と強力な拡張機能を備えています。GPUアクセラレーションをサポートしています。
- KoboldCpp:完全な機能を備えたWeb UIで、すべてのプラットフォームとGPUアーキテクチャでGPUアクセラレーションをサポートしています。特にストーリーテリングに適しています。
- GPT4All:無料でオープンソースのローカル実行GUIで、Windows、Linux、macOSをサポートし、完全なGPUアクセラレーションを備えています。
- LM Studio:WindowsとmacOS(Silicon)用の使いやすく強力なローカルGUIで、GPUアクセラレーションを備えています。2023年11月27日現在、Linux版はベータ版です。
- LoLLMS Web UI:多くの興味深い独自の機能を備えた素晴らしいWeb UIで、モデル選択が容易な完全なモデルライブラリを含んでいます。
- Faraday.dev:WindowsとmacOS(SiliconとIntelの両方)用の魅力的で使いやすいキャラクターベースのチャットGUIで、GPUアクセラレーションを備えています。
- llama-cpp-python:GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAPIサーバーを備えたPythonライブラリです。
- candle:パフォーマンスに重点を置いたRustのMLフレームワークで、GPUサポートと使いやすさを備えています。
- ctransformers:GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAIサーバーを備えたPythonライブラリです。ただし、執筆時点(2023年11月27日)では、ctransformersは長い間更新されておらず、多くの最近のモデルをサポートしていません。
量子化方法の説明
詳細を表示するにはクリック
利用可能な新しい方法は次のとおりです。
- GGML_TYPE_Q2_K - 16個のブロックを含むスーパーブロックでの「タイプ1」2ビット量子化。各ブロックには16個の重みがあります。ブロックのスケールと最小値は4ビットで量子化されます。これにより、重みごとに実質的に2.5625ビット(bpw)が使用されます。
- GGML_TYPE_Q3_K - 16個のブロックを含むスーパーブロックでの「タイプ0」3ビット量子化。各ブロックには16個の重みがあります。スケールは6ビットで量子化されます。これにより、3.4375bpwが使用されます。
- GGML_TYPE_Q4_K - 8個のブロックを含むスーパーブロックでの「タイプ1」4ビット量子化。各ブロックには32個の重みがあります。スケールと最小値は6ビットで量子化されます。これにより、4.5bpwが使用されます。
- GGML_TYPE_Q5_K - 「タイプ1」5ビット量子化。GGML_TYPE_Q4_Kと同じスーパーブロック構造で、5.5bpwになります。
- GGML_TYPE_Q6_K - 「タイプ0」6ビット量子化。16個のブロックを含むスーパーブロックで、各ブロックには16個の重みがあります。スケールは8ビットで量子化されます。これにより、6.5625bpwが使用されます。
text-generation-webui
での実行方法
詳細な手順は、text-generation-webuiのドキュメント text-generation-webui/docs/04 ‐ Model Tab.md を参照してください。
Pythonコードからの実行方法
llama-cpp-python または ctransformers ライブラリを使用して、PythonからGGUFモデルを使用できます。ただし、執筆時点(2023年11月27日)では、ctransformersは長い間更新されておらず、最近の一部のモデルと互換性がありません。したがって、llama-cpp-pythonの使用をおすすめします。
LangChainとの連携方法
llama-cpp-pythonとctransformersをLangChainと連携する方法については、以下のガイドを参照してください。
📄 ライセンス
このプロジェクトは、Apache-2.0ライセンスの下で公開されています。



