モデル概要
モデル特徴
モデル能力
使用事例
🚀 LlongOrca 7B 16K - GGUF
このプロジェクトは、Open-OrcaのLlongOrca 7B 16KモデルのGGUF形式のモデルファイルを提供します。GGUFは新しいモデル形式で、多くのクライアントやライブラリでサポートされています。
モデル情報
属性 | 详情 |
---|---|
モデル作成者 | Open-Orca |
元のモデル | LlongOrca 7B 16K |
モデルタイプ | llama |
訓練データ | Open-Orca/OpenOrca |
モデルリポジトリ
- GPU推論用のAWQモデル
- GPU推論用のGPTQモデル(複数の量子化パラメータオプションあり)
- CPU+GPU推論用の2、3、4、5、6、8ビットGGUFモデル
- GPU推論およびさらなる変換用のOpen-Orcaの元の非量子化fp16モデル(PyTorch形式)
プロンプトテンプレート
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
互換性
これらの量子化されたGGUFv2ファイルは、2023年8月27日以降のllama.cpp(コミット d0cee0d36d5be95a0d9088b674dbb27354107221 以降)と互換性があります。また、多くのサードパーティのUIやライブラリとも互換性があります。
量子化方法の説明
詳細を表示するにはクリック
利用可能な新しい方法は以下の通りです。
- GGML_TYPE_Q2_K - 16個のブロックを含むスーパーブロック内の「タイプ1」2ビット量子化。各ブロックには16個の重みがあります。ブロックのスケールと最小値は4ビットで量子化されます。これにより、実質的に重みごとに2.5625ビット(bpw)が使用されます。
- GGML_TYPE_Q3_K - 16個のブロックを含むスーパーブロック内の「タイプ0」3ビット量子化。各ブロックには16個の重みがあります。スケールは6ビットで量子化されます。これにより、3.4375bpwが使用されます。
- GGML_TYPE_Q4_K - 8個のブロックを含むスーパーブロック内の「タイプ1」4ビット量子化。各ブロックには32個の重みがあります。スケールと最小値は6ビットで量子化されます。これにより、4.5bpwが使用されます。
- GGML_TYPE_Q5_K - 「タイプ1」5ビット量子化。GGML_TYPE_Q4_Kと同じスーパーブロック構造で、5.5bpwになります。
- GGML_TYPE_Q6_K - 「タイプ0」6ビット量子化。16個のブロックを含むスーパーブロック。各ブロックには16個の重みがあります。スケールは8ビットで量子化されます。これにより、6.5625bpwが使用されます。
どのファイルがどの方法を使用しているか、およびその方法については、以下の提供ファイル表を参照してください。
提供されるファイル
名前 | 量子化方法 | ビット数 | サイズ | 必要な最大RAM | 使用ケース |
---|---|---|---|---|---|
llongorca-7b-16k.Q2_K.gguf | Q2_K | 2 | 2.83 GB | 5.33 GB | 最も小さいが、品質が大幅に低下する - ほとんどの目的には推奨されない |
llongorca-7b-16k.Q3_K_S.gguf | Q3_K_S | 3 | 2.95 GB | 5.45 GB | 非常に小さいが、品質が大幅に低下する |
llongorca-7b-16k.Q3_K_M.gguf | Q3_K_M | 3 | 3.30 GB | 5.80 GB | 非常に小さいが、品質が大幅に低下する |
llongorca-7b-16k.Q3_K_L.gguf | Q3_K_L | 3 | 3.60 GB | 6.10 GB | 小さいが、品質が大幅に低下する |
llongorca-7b-16k.Q4_0.gguf | Q4_0 | 4 | 3.83 GB | 6.33 GB | レガシー; 小さいが、品質が非常に低下する - Q3_K_Mの使用を推奨 |
llongorca-7b-16k.Q4_K_S.gguf | Q4_K_S | 4 | 3.86 GB | 6.36 GB | 小さいが、品質が大幅に低下する |
llongorca-7b-16k.Q4_K_M.gguf | Q4_K_M | 4 | 4.08 GB | 6.58 GB | 中程度で、品質がバランスが良い - 推奨 |
llongorca-7b-16k.Q5_0.gguf | Q5_0 | 5 | 4.65 GB | 7.15 GB | レガシー; 中程度で、品質がバランスが良い - Q4_K_Mの使用を推奨 |
llongorca-7b-16k.Q5_K_S.gguf | Q5_K_S | 5 | 4.65 GB | 7.15 GB | 大きいが、品質の低下が少ない - 推奨 |
llongorca-7b-16k.Q5_K_M.gguf | Q5_K_M | 5 | 4.78 GB | 7.28 GB | 大きいが、品質の低下が非常に少ない - 推奨 |
llongorca-7b-16k.Q6_K.gguf | Q6_K | 6 | 5.53 GB | 8.03 GB | 非常に大きいが、品質の低下が極めて少ない |
llongorca-7b-16k.Q8_0.gguf | Q8_0 | 8 | 7.16 GB | 9.66 GB | 非常に大きいが、品質の低下が極めて少ない - 推奨されない |
注: 上記のRAM数値は、GPUオフロードがないことを前提としています。レイヤーがGPUにオフロードされると、これによりRAM使用量が減少し、代わりにVRAMが使用されます。
GGUFファイルのダウンロード方法
手動ダウンロードする方への注意: ほとんどの場合、リポジトリ全体をクローンする必要はありません!複数の異なる量子化形式が提供されており、ほとんどのユーザーは単一のファイルを選択してダウンロードするだけです。
以下のクライアント/ライブラリは、利用可能なモデルのリストを提供し、自動的にモデルをダウンロードします。
- LM Studio
- LoLLMS Web UI
- Faraday.dev
text-generation-webui
でのダウンロード方法
「Download Model」の下で、モデルリポジトリ TheBloke/LlongOrca-7B-16K-GGUF
を入力し、その下にダウンロードする特定のファイル名(例: llongorca-7b-16k.q4_K_M.gguf)を入力します。その後、「Download」をクリックします。
コマンドラインでのダウンロード方法(複数のファイルを一度に含む)
huggingface-hub
Pythonライブラリの使用をお勧めします。
pip3 install huggingface-hub>=0.17.1
その後、以下のようなコマンドで、任意の個々のモデルファイルを高速で現在のディレクトリにダウンロードできます。
huggingface-cli download TheBloke/LlongOrca-7B-16K-GGUF llongorca-7b-16k.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
huggingface-cliダウンロードのより高度な使用法
パターンを使用して複数のファイルを一度にダウンロードすることもできます。
huggingface-cli download TheBloke/LlongOrca-7B-16K-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
huggingface-cli
でのダウンロードに関する詳細なドキュメントは、HF -> Hub Python Library -> Download files -> Download from the CLI を参照してください。
高速接続(1Gbit/s以上)でのダウンロードを加速するには、hf_transfer
をインストールします。
pip3 install hf_transfer
そして、環境変数 HF_HUB_ENABLE_HF_TRANSFER
を 1
に設定します。
HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/LlongOrca-7B-16K-GGUF llongorca-7b-16k.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Windows CLIユーザーは、ダウンロードコマンドを実行する前に set HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1
を使用してください。
実行方法
llama.cppでの実行例
llama.cpp
がコミット d0cee0d36d5be95a0d9088b674dbb27354107221 以降のものであることを確認してください。
./main -ngl 32 -m llongorca-7b-16k.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "<|im_start|>system\n{system_message}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant"
-ngl 32
を、GPUにオフロードするレイヤーの数に変更します。GPUアクセラレーションがない場合は、このオプションを削除します。
-c 4096
を、希望するシーケンス長に変更します。拡張シーケンスモデル(例: 8K、16K、32K)の場合、必要なRoPEスケーリングパラメータはGGUFファイルから読み取られ、llama.cppによって自動的に設定されます。
チャットスタイルの会話を行いたい場合は、-p <PROMPT>
引数を -i -ins
に置き換えます。
その他のパラメータとその使用方法については、llama.cppのドキュメント を参照してください。
text-generation-webuiでの実行方法
詳細な手順は text-generation-webui/docs/llama.cpp.md を参照してください。
Pythonコードからの実行方法
llama-cpp-python または ctransformers ライブラリを使用して、PythonからGGUFモデルを使用することができます。
ctransformersを使用してこのモデルをPythonからロードする方法
まず、パッケージをインストールします。
# GPUアクセラレーションなしの基本的なctransformers
pip install ctransformers>=0.2.24
# またはCUDA GPUアクセラレーション付き
pip install ctransformers[cuda]>=0.2.24
# またはROCm GPUアクセラレーション付き
CT_HIPBLAS=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
# またはmacOSシステムのMetal GPUアクセラレーション付き
CT_METAL=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
これらのGGUFモデルの1つをロードする簡単なサンプルコードは以下の通りです。
from ctransformers import AutoModelForCausalLM
# gpu_layersを、GPUにオフロードするレイヤーの数に設定します。システムでGPUアクセラレーションが利用できない場合は0に設定します。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/LlongOrca-7B-16K-GGUF", model_file="llongorca-7b-16k.q4_K_M.gguf", model_type="llama", gpu_layers=50)
print(llm("AI is going to"))
LangChainとの使用方法
LangChainでllama-cpp-pythonまたはctransformersを使用するガイドは以下の通りです。
ディスコード
これらのモデルやAI全般に関するさらなるサポートや議論に参加するには、TheBloke AIのディスコードサーバー に参加してください。
謝辞と貢献方法
chirper.ai チームに感謝します! gpus.llm-utils.org のClayに感謝します!
多くの方から貢献できるかどうかを尋ねられています。私はモデルを提供し、人々を助けることが好きで、それにもっと時間を費やし、微調整/トレーニングなどの新しいプロジェクトにも進出できることを楽しみにしています。
貢献できる方は、大変感謝していただけます。これにより、より多くのモデルを提供し、新しいAIプロジェクトの開発を開始するのに役立ちます。
寄付者には、すべてのAI/LLM/モデルに関する質問やリクエストに対する優先サポート、プライベートディスコードルームへのアクセス、その他の特典が提供されます。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特別な感謝: Aemon Algiz Patreonでの特別な言及: Alicia Loh、Stephen Murray、K、Ajan Kanaga、RoA、Magnesian、Deo Leter、Olakabola、Eugene Pentland、zynix、Deep Realms、Raymond Fosdick、Elijah Stavena、Iucharbiu
ライセンス
このモデルは、Llama 2のライセンスの下で提供されています。



