LlongOrca-7B-16K-GGUFオープンソース大規模言語モデル

Llongorca 7B 16K GGUF

TheBlokeによって開発

LlongOrca 7B 16K は Open-Orca によって開発された Llama アーキテクチャに基づく大規模言語モデルで、16K のコンテキスト長をサポートし、テキスト生成タスクに適しています。

ダウンロード数 1,304

リリース時間 : 9/5/2023

モデル概要

LlongOrca 7B 16K は Llama アーキテクチャに基づく大規模言語モデルで、16K のコンテキスト長をサポートし、テキスト生成タスクに適しています。モデルは ChatML プロンプトテンプレートを採用し、対話型インタラクションをサポートします。

モデル特徴

16K コンテキスト長

最大 16K のコンテキスト長をサポートし、長文処理タスクに適しています。

ChatML プロンプトテンプレート

ChatML プロンプトテンプレートを使用し、対話型インタラクションをサポートし、チャットボットなどのアプリケーションに適しています。

複数の量子化オプション

複数の量子化オプション（Q2_K、Q3_K、Q4_K など）を提供し、さまざまなハードウェア要件に対応します。

モデル能力

テキスト生成

対話型インタラクション

長文処理

使用事例

チャットボット

インテリジェントカスタマーサポート

インテリジェントカスタマーサポートシステムの構築に使用され、マルチターン対話と長文処理をサポートします。

コンテンツ生成

記事生成

長文記事やレポートの生成に使用され、16K のコンテキスト長をサポートします。

🚀 LlongOrca 7B 16K - GGUF

このプロジェクトは、Open-OrcaのLlongOrca 7B 16KモデルのGGUF形式のモデルファイルを提供します。GGUFは新しいモデル形式で、多くのクライアントやライブラリでサポートされています。

モデル情報

属性	详情
モデル作成者	Open-Orca
元のモデル	LlongOrca 7B 16K
モデルタイプ	llama
訓練データ	Open-Orca/OpenOrca

モデルリポジトリ

プロンプトテンプレート

<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

互換性

これらの量子化されたGGUFv2ファイルは、2023年8月27日以降のllama.cpp（コミット d0cee0d36d5be95a0d9088b674dbb27354107221 以降）と互換性があります。また、多くのサードパーティのUIやライブラリとも互換性があります。

量子化方法の説明

詳細を表示するにはクリック

利用可能な新しい方法は以下の通りです。

GGML_TYPE_Q2_K - 16個のブロックを含むスーパーブロック内の「タイプ1」2ビット量子化。各ブロックには16個の重みがあります。ブロックのスケールと最小値は4ビットで量子化されます。これにより、実質的に重みごとに2.5625ビット（bpw）が使用されます。
GGML_TYPE_Q3_K - 16個のブロックを含むスーパーブロック内の「タイプ0」3ビット量子化。各ブロックには16個の重みがあります。スケールは6ビットで量子化されます。これにより、3.4375bpwが使用されます。
GGML_TYPE_Q4_K - 8個のブロックを含むスーパーブロック内の「タイプ1」4ビット量子化。各ブロックには32個の重みがあります。スケールと最小値は6ビットで量子化されます。これにより、4.5bpwが使用されます。
GGML_TYPE_Q5_K - 「タイプ1」5ビット量子化。GGML_TYPE_Q4_Kと同じスーパーブロック構造で、5.5bpwになります。
GGML_TYPE_Q6_K - 「タイプ0」6ビット量子化。16個のブロックを含むスーパーブロック。各ブロックには16個の重みがあります。スケールは8ビットで量子化されます。これにより、6.5625bpwが使用されます。

どのファイルがどの方法を使用しているか、およびその方法については、以下の提供ファイル表を参照してください。

提供されるファイル

名前	量子化方法	ビット数	サイズ	必要な最大RAM	使用ケース
llongorca-7b-16k.Q2_K.gguf	Q2_K	2	2.83 GB	5.33 GB	最も小さいが、品質が大幅に低下する - ほとんどの目的には推奨されない
llongorca-7b-16k.Q3_K_S.gguf	Q3_K_S	3	2.95 GB	5.45 GB	非常に小さいが、品質が大幅に低下する
llongorca-7b-16k.Q3_K_M.gguf	Q3_K_M	3	3.30 GB	5.80 GB	非常に小さいが、品質が大幅に低下する
llongorca-7b-16k.Q3_K_L.gguf	Q3_K_L	3	3.60 GB	6.10 GB	小さいが、品質が大幅に低下する
llongorca-7b-16k.Q4_0.gguf	Q4_0	4	3.83 GB	6.33 GB	レガシー; 小さいが、品質が非常に低下する - Q3_K_Mの使用を推奨
llongorca-7b-16k.Q4_K_S.gguf	Q4_K_S	4	3.86 GB	6.36 GB	小さいが、品質が大幅に低下する
llongorca-7b-16k.Q4_K_M.gguf	Q4_K_M	4	4.08 GB	6.58 GB	中程度で、品質がバランスが良い - 推奨
llongorca-7b-16k.Q5_0.gguf	Q5_0	5	4.65 GB	7.15 GB	レガシー; 中程度で、品質がバランスが良い - Q4_K_Mの使用を推奨
llongorca-7b-16k.Q5_K_S.gguf	Q5_K_S	5	4.65 GB	7.15 GB	大きいが、品質の低下が少ない - 推奨
llongorca-7b-16k.Q5_K_M.gguf	Q5_K_M	5	4.78 GB	7.28 GB	大きいが、品質の低下が非常に少ない - 推奨
llongorca-7b-16k.Q6_K.gguf	Q6_K	6	5.53 GB	8.03 GB	非常に大きいが、品質の低下が極めて少ない
llongorca-7b-16k.Q8_0.gguf	Q8_0	8	7.16 GB	9.66 GB	非常に大きいが、品質の低下が極めて少ない - 推奨されない

注: 上記のRAM数値は、GPUオフロードがないことを前提としています。レイヤーがGPUにオフロードされると、これによりRAM使用量が減少し、代わりにVRAMが使用されます。

GGUFファイルのダウンロード方法

手動ダウンロードする方への注意: ほとんどの場合、リポジトリ全体をクローンする必要はありません！複数の異なる量子化形式が提供されており、ほとんどのユーザーは単一のファイルを選択してダウンロードするだけです。

以下のクライアント/ライブラリは、利用可能なモデルのリストを提供し、自動的にモデルをダウンロードします。

LM Studio
LoLLMS Web UI
Faraday.dev

`text-generation-webui` でのダウンロード方法

「Download Model」の下で、モデルリポジトリ TheBloke/LlongOrca-7B-16K-GGUF を入力し、その下にダウンロードする特定のファイル名（例: llongorca-7b-16k.q4_K_M.gguf）を入力します。その後、「Download」をクリックします。

コマンドラインでのダウンロード方法（複数のファイルを一度に含む）

huggingface-hub Pythonライブラリの使用をお勧めします。

pip3 install huggingface-hub>=0.17.1

その後、以下のようなコマンドで、任意の個々のモデルファイルを高速で現在のディレクトリにダウンロードできます。

huggingface-cli download TheBloke/LlongOrca-7B-16K-GGUF llongorca-7b-16k.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

huggingface-cliダウンロードのより高度な使用法

パターンを使用して複数のファイルを一度にダウンロードすることもできます。

huggingface-cli download TheBloke/LlongOrca-7B-16K-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'

huggingface-cli でのダウンロードに関する詳細なドキュメントは、HF -> Hub Python Library -> Download files -> Download from the CLI を参照してください。

高速接続（1Gbit/s以上）でのダウンロードを加速するには、hf_transfer をインストールします。

pip3 install hf_transfer

そして、環境変数 HF_HUB_ENABLE_HF_TRANSFER を 1 に設定します。

HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/LlongOrca-7B-16K-GGUF llongorca-7b-16k.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windows CLIユーザーは、ダウンロードコマンドを実行する前に set HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1 を使用してください。

実行方法

llama.cppでの実行例

llama.cpp がコミット d0cee0d36d5be95a0d9088b674dbb27354107221 以降のものであることを確認してください。

./main -ngl 32 -m llongorca-7b-16k.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "<|im_start|>system\n{system_message}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant"

-ngl 32 を、GPUにオフロードするレイヤーの数に変更します。GPUアクセラレーションがない場合は、このオプションを削除します。 -c 4096 を、希望するシーケンス長に変更します。拡張シーケンスモデル（例: 8K、16K、32K）の場合、必要なRoPEスケーリングパラメータはGGUFファイルから読み取られ、llama.cppによって自動的に設定されます。

チャットスタイルの会話を行いたい場合は、-p <PROMPT> 引数を -i -ins に置き換えます。

その他のパラメータとその使用方法については、llama.cppのドキュメントを参照してください。

text-generation-webuiでの実行方法

詳細な手順は text-generation-webui/docs/llama.cpp.md を参照してください。

Pythonコードからの実行方法

llama-cpp-python または ctransformers ライブラリを使用して、PythonからGGUFモデルを使用することができます。

ctransformersを使用してこのモデルをPythonからロードする方法

まず、パッケージをインストールします。

# GPUアクセラレーションなしの基本的なctransformers
pip install ctransformers>=0.2.24
# またはCUDA GPUアクセラレーション付き
pip install ctransformers[cuda]>=0.2.24
# またはROCm GPUアクセラレーション付き
CT_HIPBLAS=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
# またはmacOSシステムのMetal GPUアクセラレーション付き
CT_METAL=1 pip install ctransformers>=0.2.24 --no-binary ctransformers

これらのGGUFモデルの1つをロードする簡単なサンプルコードは以下の通りです。

from ctransformers import AutoModelForCausalLM

# gpu_layersを、GPUにオフロードするレイヤーの数に設定します。システムでGPUアクセラレーションが利用できない場合は0に設定します。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/LlongOrca-7B-16K-GGUF", model_file="llongorca-7b-16k.q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI is going to"))

LangChainとの使用方法

LangChainでllama-cpp-pythonまたはctransformersを使用するガイドは以下の通りです。

ディスコード

これらのモデルやAI全般に関するさらなるサポートや議論に参加するには、TheBloke AIのディスコードサーバーに参加してください。

謝辞と貢献方法

chirper.ai チームに感謝します！ gpus.llm-utils.org のClayに感謝します！

多くの方から貢献できるかどうかを尋ねられています。私はモデルを提供し、人々を助けることが好きで、それにもっと時間を費やし、微調整/トレーニングなどの新しいプロジェクトにも進出できることを楽しみにしています。

貢献できる方は、大変感謝していただけます。これにより、より多くのモデルを提供し、新しいAIプロジェクトの開発を開始するのに役立ちます。

寄付者には、すべてのAI/LLM/モデルに関する質問やリクエストに対する優先サポート、プライベートディスコードルームへのアクセス、その他の特典が提供されます。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別な感謝: Aemon Algiz Patreonでの特別な言及: Alicia Loh、Stephen Murray、K、Ajan Kanaga、RoA、Magnesian、Deo Leter、Olakabola、Eugene Pentland、zynix、Deep Realms、Raymond Fosdick、Elijah Stavena、Iucharbiu