Orca-2-13B-GGUFオープンソース大規模言語モデル - 多様なハードウェア環境での高効率推論が無料で利用可能

ホーム

Orca 2 13B GGUF

TheBlokeによって開発

Orca 2 13Bは、MicrosoftがLLAMA - 2をベースにファインチューニングした大規模言語モデルで、GGUF形式の量子化ファイルを提供し、さまざまなハードウェア環境での効率的な推論をサポートします。

大規模言語モデル

Transformers

オープンソースライセンス:その他 #多量化推論 #ChatML対話 #軽量ファインチューニング

ダウンロード数 2,596

リリース時間 : 11/21/2023

モデル概要

このモデルは、MicrosoftのOrca 2 13BのGGUF量子化バージョンで、複数の量子化レベルをサポートし、さまざまなハードウェア条件下でのテキスト生成タスクに適しています。

モデル特徴

複数の量子化方法

2ビットから8ビットまでの複数の量子化レベルをサポートし、さまざまな精度とパフォーマンスの要件を満たします。

幅広い互換性

llama.cppおよび複数のサードパーティのUIとライブラリと互換性があり、複数のプラットフォームをサポートします。

ハードウェア適応性

CPUとGPU環境で実行でき、さまざまなパフォーマンスのハードウェア構成をサポートします。

モデル能力

テキスト生成

対話システム

命令追従

使用事例

対話システム

スマートアシスタント

自然言語対話に基づくスマートアシスタントを構築する

一貫性があり、文脈に合った返答を生成できます。

コンテンツ生成

テキスト創作

クリエイティブなライティングとコンテンツ生成を支援する

要件に合ったさまざまなテキストコンテンツを生成できます。

🚀 Orca 2 13B - GGUF

このプロジェクトは、MicrosoftのOrca 2 13BモデルのGGUF形式のモデルファイルを提供しています。GGUF形式は新しいモデル形式で、多くのクライアントやライブラリでサポートされています。

🚀 クイックスタート

このモデルを使用するには、まずGGUFファイルをダウンロードする必要があります。ダウンロード方法や実行方法については以下のセクションを参照してください。

✨ 主な機能

多様なクライアントサポート：llama.cpp、text-generation-webui、KoboldCppなど、多くのクライアントやライブラリでサポートされています。
量子化モデル提供：様々な量子化方法とビット数のモデルが提供されており、使用ケースに応じて選択できます。
高速ダウンロード：huggingface-hubライブラリを使用することで、高速にモデルファイルをダウンロードできます。

📦 インストール

GGUFファイルのダウンロード

以下の方法でGGUFファイルをダウンロードできます。

自動ダウンロードをサポートするクライアント

LM Studio
LoLLMS Web UI
Faraday.dev

これらのクライアントを使用すると、利用可能なモデルのリストから選択して自動的にダウンロードできます。

`text-generation-webui`でのダウンロード

Download Modelの下に、モデルリポジトリ TheBloke/Orca-2-13B-GGUF を入力します。
その下に、ダウンロードする具体的なファイル名（例：orca-2-13b.Q4_K_M.gguf）を入力します。
Downloadをクリックします。

コマンドラインでのダウンロード

huggingface-hub Pythonライブラリを使用することで、高速にモデルファイルをダウンロードできます。

pip3 install huggingface-hub

以下のコマンドで、任意のモデルファイルを現在のディレクトリにダウンロードできます。

huggingface-cli download TheBloke/Orca-2-13B-GGUF orca-2-13b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

モデルの実行

`llama.cpp`での実行

以下のコマンドで、llama.cppを使用してモデルを実行できます。

./main -ngl 32 -m orca-2-13b.Q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "<|im_start|>system\n{system_message}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant"

-ngl 32：GPUにオフロードするレイヤー数。GPUアクセラレーションがない場合は削除してください。
-c 4096：希望するシーケンス長。拡張シーケンスモデルの場合は、必要なRoPEスケーリングパラメータがGGUFファイルから読み取られ、自動的に設定されます。
チャットスタイルの会話を行う場合は、-p <PROMPT> 引数を -i -ins に置き換えてください。

`text-generation-webui`での実行

詳細な手順は、text-generation-webuiのドキュメントを参照してください。

Pythonコードからの実行

llama-cpp-python または ctransformers ライブラリを使用することで、PythonコードからGGUFモデルを使用できます。

from ctransformers import AutoModelForCausalLM

# Set gpu_layers to the number of layers to offload to GPU. Set to 0 if no GPU acceleration is available on your system.
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Orca-2-13B-GGUF", model_file="orca-2-13b.Q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI is going to"))

📚 ドキュメント

モデル情報

プロパティ	詳細
モデルタイプ	llama
モデル作成者	Microsoft
ベースモデル	microsoft/Orca-2-13b
量子化者	TheBloke
パイプラインタグ	text-generation

プロンプトテンプレート

<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

互換性

これらの量子化されたGGUFv2ファイルは、2023年8月27日以降のllama.cpp（コミット d0cee0d 以降）と互換性があります。また、多くのサードパーティのUIやライブラリとも互換性があります。

量子化方法の説明

詳細を表示するにはクリック

利用可能な新しい方法は以下の通りです。

GGML_TYPE_Q2_K - 16個のブロックを含むスーパーブロックでの「タイプ1」2ビット量子化。各ブロックには16個の重みがあります。ブロックのスケールと最小値は4ビットで量子化されます。これにより、有効には重みごとに2.5625ビット（bpw）が使用されます。
GGML_TYPE_Q3_K - 16個のブロックを含むスーパーブロックでの「タイプ0」3ビット量子化。各ブロックには16個の重みがあります。スケールは6ビットで量子化されます。これにより、3.4375 bpwが使用されます。
GGML_TYPE_Q4_K - 8個のブロックを含むスーパーブロックでの「タイプ1」4ビット量子化。各ブロックには32個の重みがあります。スケールと最小値は6ビットで量子化されます。これにより、4.5 bpwが使用されます。
GGML_TYPE_Q5_K - 「タイプ1」5ビット量子化。GGML_TYPE_Q4_Kと同じスーパーブロック構造で、5.5 bpwになります。
GGML_TYPE_Q6_K - 「タイプ0」6ビット量子化。16個のブロックを含むスーパーブロック。各ブロックには16個の重みがあります。スケールは8ビットで量子化されます。これにより、6.5625 bpwが使用されます。

使用されている方法とその使用方法については、以下の提供ファイル表を参照してください。

提供されるファイル

名前	量子化方法	ビット数	サイズ	必要な最大RAM	使用ケース
orca-2-13b.Q2_K.gguf	Q2_K	2	5.43 GB	7.93 GB	最も小さいが、品質が大幅に低下する - ほとんどの目的には推奨されません
orca-2-13b.Q3_K_S.gguf	Q3_K_S	3	5.66 GB	8.16 GB	非常に小さいが、品質が大きく低下する
orca-2-13b.Q3_K_M.gguf	Q3_K_M	3	6.34 GB	8.84 GB	非常に小さいが、品質が大きく低下する
orca-2-13b.Q3_K_L.gguf	Q3_K_L	3	6.93 GB	9.43 GB	小さいが、品質が大幅に低下する
orca-2-13b.Q4_0.gguf	Q4_0	4	7.37 GB	9.87 GB	レガシー。小さいが、品質が非常に大きく低下する - Q3_K_Mを使用することを推奨
orca-2-13b.Q4_K_S.gguf	Q4_K_S	4	7.41 GB	9.91 GB	小さいが、品質が大きく低下する
orca-2-13b.Q4_K_M.gguf	Q4_K_M	4	7.87 GB	10.37 GB	中程度で、品質がバランスが良い - 推奨
orca-2-13b.Q5_0.gguf	Q5_0	5	8.97 GB	11.47 GB	レガシー。中程度で、品質がバランスが良い - Q4_K_Mを使用することを推奨
orca-2-13b.Q5_K_S.gguf	Q5_K_S	5	8.97 GB	11.47 GB	大きいが、品質の低下が少ない - 推奨
orca-2-13b.Q5_K_M.gguf	Q5_K_M	5	9.23 GB	11.73 GB	大きいが、品質の低下が非常に少ない - 推奨
orca-2-13b.Q6_K.gguf	Q6_K	6	10.68 GB	13.18 GB	非常に大きいが、品質の低下が極めて少ない
orca-2-13b.Q8_0.gguf	Q8_0	8	13.83 GB	16.33 GB	非常に大きいが、品質の低下が極めて少ない - 推奨されません

注: 上記のRAM数値は、GPUオフロードがないことを想定しています。レイヤーをGPUにオフロードすると、RAM使用量が減少し、代わりにVRAMが使用されます。

🔧 技術詳細

Orca 2は、LLAMA-2をファインチューニングしたモデルです。トレーニングデータは、小さなモデルの推論能力を強化するために作成された合成データセットです。すべての合成トレーニングデータは、Microsoft Azureのコンテンツフィルターを使用してモデレートされています。モデルの詳細については、Orca 2論文を参照してください。

📄 ライセンス

Orca 2は、Microsoft Research Licenseの下でライセンスされています。
Llama 2は、LLAMA 2 Community Licenseの下でライセンスされており、Copyright © Meta Platforms, Inc. All Rights Reservedです。

⚠️ 重要提示

データバイアス：大規模言語モデルは、大量のデータでトレーニングされているため、ソースデータに存在するバイアスを持ち込む可能性があります。その結果、モデルが生成する出力にバイアスや不公平な内容が含まれることがあります。
文脈理解の不足：これらのモデルは、言語理解と生成能力に優れていますが、現実世界の理解が限られているため、出力に誤りや意味不明な内容が含まれることがあります。
透明性の欠如：大規模言語モデルは複雑で大きいため、「ブラックボックス」のように動作することがあり、特定の出力や決定の理由を理解することが困難です。詳細については、Azureの透明性に関するノートを参照してください。
コンテンツハーム：大規模言語モデルは、様々なタイプのコンテンツハームを引き起こす可能性があります。これらのモデルを使用する際には、これらのハームに注意し、防止するための対策を講じることが重要です。さまざまな会社や機関が提供するコンテンツモデレーションサービスを活用することをおすすめします。
幻覚現象：言語モデルが生成する内容を、重要な決定や情報に完全に依存しないように注意する必要があります。これらのモデルが内容を捏造することを防ぐ方法は明確ではなく、小さなモデルは、サイズが小さく記憶容量が少ないため、グラウンディングされていない生成ユースケースで幻覚現象により影響を受けやすい可能性があります。これは活発な研究トピックであり、このトピックに関するより厳格な測定、理解、緩和策が期待されています。

💡 使用建议

モデルの出力を使用する際には、バイアスや幻覚現象に注意し、必要に応じてコンテンツモデレーションを行ってください。
モデルの性能を向上させるために、適切な量子化方法とビット数を選択してください。
モデルの実行にGPUアクセラレーションを利用することで、高速な推論が可能です。

Discord

これらのモデルやAI全般に関するさらなるサポートや議論に参加するには、TheBloke AIのDiscordサーバーに参加してください。

謝辞と貢献方法

chirper.aiチームに感謝します。
gpus.llm-utils.orgのClayに感謝します。

多くの人から貢献の申し出をいただいています。私はモデルを提供し、人々を助けることが好きで、もっと多くの時間を費やし、ファインチューニング/トレーニングなどの新しいプロジェクトにも進出したいと思っています。

貢献できる方は、大歓迎です。貢献いただくことで、より多くのモデルを提供し、新しいAIプロジェクトに取り組むことができます。

寄付者は、AI/LLM/モデルに関するすべての質問やリクエストに対する優先サポート、プライベートDiscordルームへのアクセス、その他の特典を受けることができます。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別な感謝: Aemon Algiz

Patreonでの特別な言及: Brandon Frisco, LangChain4j, Spiking Neurons AB, transmissions 11, Joseph William Delisle, Nitin Borwankar, Willem Michiel, Michael Dempsey, vamX, Jeffrey Morgan, zynix, jjj, Omer Bin Jawed, Sean Connelly, jinyuan sun, Jeromy Smith, Shadi, Pawan Osman, Chadd, Elijah Stavena, Illia Dulskyi, Sebastain Graf, Stephen Murray, terasurfer, Edmond Seymore, Celu Ramasamy, Mandus, Alex, biorpg, Ajan Kanaga, Clay Pascal, Raven Klaugh, 阿明, K, ya boyyy, usrbinkat, Alicia Loh, John Villwock, ReadyPlayerEmma, Chris Smitley, Cap'n Zoog, fincy, GodLy, S_X, sidney chen, Cory Kujawski, OG, Mano Prime, AzureBlack, Pieter, Kalila, Spencer Kim, Tom X Nguyen, Stanislav Ovsiannikov, Michael Levine, Andrey, Trailburnt, Vadim, Enrico Ros, Talal Aujan, Brandon Phillips, Jack West, Eugene Pentland, Michael Davis, Will Dee, webtim, Jonathan Leane, Alps Aficionado, Rooh Singh, Tiffany J. Kim, theTransient, Luke @flexchar, Elle, Caitlyn Gatomon, Ari Malik, subjectnull, Johann-Peter Hartmann, Trenton Dambrowitz, Imad Khwaja, Asp the Wyvern, Emad Mostaque, Rainer Wilmers, Alexandros Triantafyllidis, Nicholas, Pedro Madruga, SuperWojo, Harry Royden McLaughlin, James Bentley, Olakabola, David Ziegler, Ai Maven, Jeff Scroggin, Nikolai Manek, Deo Leter, Matthew Berman, Fen Risland, Ken Nordquist, Manuel Alberto Morcote, Luke Pendergrass, TL, Fred von Graf, Randy H, Dan Guido, NimbleBox.ai, Vitor Caleffi, Gabriel Tamborski, knownsqashed, Lone Striker, Erik Bjäreholt, John Detwiler, Leonard Tan, Iucharbius

すべての寛大なパトロンと寄付者に感謝します。

また、a16zの寛大な助成金に再度感謝します。