モデル概要
モデル特徴
モデル能力
使用事例
🚀 Orca 2 13B - GGUF
このプロジェクトは、MicrosoftのOrca 2 13BモデルのGGUF形式のモデルファイルを提供しています。GGUF形式は新しいモデル形式で、多くのクライアントやライブラリでサポートされています。
🚀 クイックスタート
このモデルを使用するには、まずGGUFファイルをダウンロードする必要があります。ダウンロード方法や実行方法については以下のセクションを参照してください。
✨ 主な機能
- 多様なクライアントサポート:
llama.cpp
、text-generation-webui
、KoboldCpp
など、多くのクライアントやライブラリでサポートされています。 - 量子化モデル提供:様々な量子化方法とビット数のモデルが提供されており、使用ケースに応じて選択できます。
- 高速ダウンロード:
huggingface-hub
ライブラリを使用することで、高速にモデルファイルをダウンロードできます。
📦 インストール
GGUFファイルのダウンロード
以下の方法でGGUFファイルをダウンロードできます。
自動ダウンロードをサポートするクライアント
- LM Studio
- LoLLMS Web UI
- Faraday.dev
これらのクライアントを使用すると、利用可能なモデルのリストから選択して自動的にダウンロードできます。
text-generation-webui
でのダウンロード
- Download Modelの下に、モデルリポジトリ
TheBloke/Orca-2-13B-GGUF
を入力します。 - その下に、ダウンロードする具体的なファイル名(例:
orca-2-13b.Q4_K_M.gguf
)を入力します。 - Downloadをクリックします。
コマンドラインでのダウンロード
huggingface-hub
Pythonライブラリを使用することで、高速にモデルファイルをダウンロードできます。
pip3 install huggingface-hub
以下のコマンドで、任意のモデルファイルを現在のディレクトリにダウンロードできます。
huggingface-cli download TheBloke/Orca-2-13B-GGUF orca-2-13b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
モデルの実行
llama.cpp
での実行
以下のコマンドで、llama.cpp
を使用してモデルを実行できます。
./main -ngl 32 -m orca-2-13b.Q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "<|im_start|>system\n{system_message}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant"
-ngl 32
:GPUにオフロードするレイヤー数。GPUアクセラレーションがない場合は削除してください。-c 4096
:希望するシーケンス長。拡張シーケンスモデルの場合は、必要なRoPEスケーリングパラメータがGGUFファイルから読み取られ、自動的に設定されます。- チャットスタイルの会話を行う場合は、
-p <PROMPT>
引数を-i -ins
に置き換えてください。
text-generation-webui
での実行
詳細な手順は、text-generation-webuiのドキュメントを参照してください。
Pythonコードからの実行
llama-cpp-python
または ctransformers
ライブラリを使用することで、PythonコードからGGUFモデルを使用できます。
from ctransformers import AutoModelForCausalLM
# Set gpu_layers to the number of layers to offload to GPU. Set to 0 if no GPU acceleration is available on your system.
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Orca-2-13B-GGUF", model_file="orca-2-13b.Q4_K_M.gguf", model_type="llama", gpu_layers=50)
print(llm("AI is going to"))
📚 ドキュメント
モデル情報
プロパティ | 詳細 |
---|---|
モデルタイプ | llama |
モデル作成者 | Microsoft |
ベースモデル | microsoft/Orca-2-13b |
量子化者 | TheBloke |
パイプラインタグ | text-generation |
プロンプトテンプレート
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
互換性
これらの量子化されたGGUFv2ファイルは、2023年8月27日以降のllama.cpp
(コミット d0cee0d 以降)と互換性があります。また、多くのサードパーティのUIやライブラリとも互換性があります。
量子化方法の説明
詳細を表示するにはクリック
利用可能な新しい方法は以下の通りです。
- GGML_TYPE_Q2_K - 16個のブロックを含むスーパーブロックでの「タイプ1」2ビット量子化。各ブロックには16個の重みがあります。ブロックのスケールと最小値は4ビットで量子化されます。これにより、有効には重みごとに2.5625ビット(bpw)が使用されます。
- GGML_TYPE_Q3_K - 16個のブロックを含むスーパーブロックでの「タイプ0」3ビット量子化。各ブロックには16個の重みがあります。スケールは6ビットで量子化されます。これにより、3.4375 bpwが使用されます。
- GGML_TYPE_Q4_K - 8個のブロックを含むスーパーブロックでの「タイプ1」4ビット量子化。各ブロックには32個の重みがあります。スケールと最小値は6ビットで量子化されます。これにより、4.5 bpwが使用されます。
- GGML_TYPE_Q5_K - 「タイプ1」5ビット量子化。GGML_TYPE_Q4_Kと同じスーパーブロック構造で、5.5 bpwになります。
- GGML_TYPE_Q6_K - 「タイプ0」6ビット量子化。16個のブロックを含むスーパーブロック。各ブロックには16個の重みがあります。スケールは8ビットで量子化されます。これにより、6.5625 bpwが使用されます。
使用されている方法とその使用方法については、以下の提供ファイル表を参照してください。
提供されるファイル
名前 | 量子化方法 | ビット数 | サイズ | 必要な最大RAM | 使用ケース |
---|---|---|---|---|---|
orca-2-13b.Q2_K.gguf | Q2_K | 2 | 5.43 GB | 7.93 GB | 最も小さいが、品質が大幅に低下する - ほとんどの目的には推奨されません |
orca-2-13b.Q3_K_S.gguf | Q3_K_S | 3 | 5.66 GB | 8.16 GB | 非常に小さいが、品質が大きく低下する |
orca-2-13b.Q3_K_M.gguf | Q3_K_M | 3 | 6.34 GB | 8.84 GB | 非常に小さいが、品質が大きく低下する |
orca-2-13b.Q3_K_L.gguf | Q3_K_L | 3 | 6.93 GB | 9.43 GB | 小さいが、品質が大幅に低下する |
orca-2-13b.Q4_0.gguf | Q4_0 | 4 | 7.37 GB | 9.87 GB | レガシー。小さいが、品質が非常に大きく低下する - Q3_K_Mを使用することを推奨 |
orca-2-13b.Q4_K_S.gguf | Q4_K_S | 4 | 7.41 GB | 9.91 GB | 小さいが、品質が大きく低下する |
orca-2-13b.Q4_K_M.gguf | Q4_K_M | 4 | 7.87 GB | 10.37 GB | 中程度で、品質がバランスが良い - 推奨 |
orca-2-13b.Q5_0.gguf | Q5_0 | 5 | 8.97 GB | 11.47 GB | レガシー。中程度で、品質がバランスが良い - Q4_K_Mを使用することを推奨 |
orca-2-13b.Q5_K_S.gguf | Q5_K_S | 5 | 8.97 GB | 11.47 GB | 大きいが、品質の低下が少ない - 推奨 |
orca-2-13b.Q5_K_M.gguf | Q5_K_M | 5 | 9.23 GB | 11.73 GB | 大きいが、品質の低下が非常に少ない - 推奨 |
orca-2-13b.Q6_K.gguf | Q6_K | 6 | 10.68 GB | 13.18 GB | 非常に大きいが、品質の低下が極めて少ない |
orca-2-13b.Q8_0.gguf | Q8_0 | 8 | 13.83 GB | 16.33 GB | 非常に大きいが、品質の低下が極めて少ない - 推奨されません |
注: 上記のRAM数値は、GPUオフロードがないことを想定しています。レイヤーをGPUにオフロードすると、RAM使用量が減少し、代わりにVRAMが使用されます。
🔧 技術詳細
Orca 2は、LLAMA-2をファインチューニングしたモデルです。トレーニングデータは、小さなモデルの推論能力を強化するために作成された合成データセットです。すべての合成トレーニングデータは、Microsoft Azureのコンテンツフィルターを使用してモデレートされています。モデルの詳細については、Orca 2論文を参照してください。
📄 ライセンス
- Orca 2は、Microsoft Research Licenseの下でライセンスされています。
- Llama 2は、LLAMA 2 Community Licenseの下でライセンスされており、Copyright © Meta Platforms, Inc. All Rights Reservedです。
⚠️ 重要提示
- データバイアス:大規模言語モデルは、大量のデータでトレーニングされているため、ソースデータに存在するバイアスを持ち込む可能性があります。その結果、モデルが生成する出力にバイアスや不公平な内容が含まれることがあります。
- 文脈理解の不足:これらのモデルは、言語理解と生成能力に優れていますが、現実世界の理解が限られているため、出力に誤りや意味不明な内容が含まれることがあります。
- 透明性の欠如:大規模言語モデルは複雑で大きいため、「ブラックボックス」のように動作することがあり、特定の出力や決定の理由を理解することが困難です。詳細については、Azureの透明性に関するノートを参照してください。
- コンテンツハーム:大規模言語モデルは、様々なタイプのコンテンツハームを引き起こす可能性があります。これらのモデルを使用する際には、これらのハームに注意し、防止するための対策を講じることが重要です。さまざまな会社や機関が提供するコンテンツモデレーションサービスを活用することをおすすめします。
- 幻覚現象:言語モデルが生成する内容を、重要な決定や情報に完全に依存しないように注意する必要があります。これらのモデルが内容を捏造することを防ぐ方法は明確ではなく、小さなモデルは、サイズが小さく記憶容量が少ないため、グラウンディングされていない生成ユースケースで幻覚現象により影響を受けやすい可能性があります。これは活発な研究トピックであり、このトピックに関するより厳格な測定、理解、緩和策が期待されています。
💡 使用建议
- モデルの出力を使用する際には、バイアスや幻覚現象に注意し、必要に応じてコンテンツモデレーションを行ってください。
- モデルの性能を向上させるために、適切な量子化方法とビット数を選択してください。
- モデルの実行にGPUアクセラレーションを利用することで、高速な推論が可能です。
Discord
これらのモデルやAI全般に関するさらなるサポートや議論に参加するには、TheBloke AIのDiscordサーバーに参加してください。
謝辞と貢献方法
- chirper.aiチームに感謝します。
- gpus.llm-utils.orgのClayに感謝します。
多くの人から貢献の申し出をいただいています。私はモデルを提供し、人々を助けることが好きで、もっと多くの時間を費やし、ファインチューニング/トレーニングなどの新しいプロジェクトにも進出したいと思っています。
貢献できる方は、大歓迎です。貢献いただくことで、より多くのモデルを提供し、新しいAIプロジェクトに取り組むことができます。
寄付者は、AI/LLM/モデルに関するすべての質問やリクエストに対する優先サポート、プライベートDiscordルームへのアクセス、その他の特典を受けることができます。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特別な感謝: Aemon Algiz
Patreonでの特別な言及: Brandon Frisco, LangChain4j, Spiking Neurons AB, transmissions 11, Joseph William Delisle, Nitin Borwankar, Willem Michiel, Michael Dempsey, vamX, Jeffrey Morgan, zynix, jjj, Omer Bin Jawed, Sean Connelly, jinyuan sun, Jeromy Smith, Shadi, Pawan Osman, Chadd, Elijah Stavena, Illia Dulskyi, Sebastain Graf, Stephen Murray, terasurfer, Edmond Seymore, Celu Ramasamy, Mandus, Alex, biorpg, Ajan Kanaga, Clay Pascal, Raven Klaugh, 阿明, K, ya boyyy, usrbinkat, Alicia Loh, John Villwock, ReadyPlayerEmma, Chris Smitley, Cap'n Zoog, fincy, GodLy, S_X, sidney chen, Cory Kujawski, OG, Mano Prime, AzureBlack, Pieter, Kalila, Spencer Kim, Tom X Nguyen, Stanislav Ovsiannikov, Michael Levine, Andrey, Trailburnt, Vadim, Enrico Ros, Talal Aujan, Brandon Phillips, Jack West, Eugene Pentland, Michael Davis, Will Dee, webtim, Jonathan Leane, Alps Aficionado, Rooh Singh, Tiffany J. Kim, theTransient, Luke @flexchar, Elle, Caitlyn Gatomon, Ari Malik, subjectnull, Johann-Peter Hartmann, Trenton Dambrowitz, Imad Khwaja, Asp the Wyvern, Emad Mostaque, Rainer Wilmers, Alexandros Triantafyllidis, Nicholas, Pedro Madruga, SuperWojo, Harry Royden McLaughlin, James Bentley, Olakabola, David Ziegler, Ai Maven, Jeff Scroggin, Nikolai Manek, Deo Leter, Matthew Berman, Fen Risland, Ken Nordquist, Manuel Alberto Morcote, Luke Pendergrass, TL, Fred von Graf, Randy H, Dan Guido, NimbleBox.ai, Vitor Caleffi, Gabriel Tamborski, knownsqashed, Lone Striker, Erik Bjäreholt, John Detwiler, Leonard Tan, Iucharbius
すべての寛大なパトロンと寄付者に感謝します。
また、a16zの寛大な助成金に再度感謝します。



