Opus V0 7Bオープンソース言語モデル - 無料デプロイで効率的なテキスト生成タスクをサポート

ホーム

Opus V0 7B GGUF

TheBlokeによって開発

Opus V0 7BはDreamGenによって開発されたMistralアーキテクチャに基づく7Bパラメータの言語モデルで、テキスト生成タスクに特化しています。

大規模言語モデル英語#マルチ量子化バージョン #英文テキスト生成 #低リソース展開

ダウンロード数 2,467

リリース時間 : 11/9/2023

モデル概要

Opus V0 7BはMistralアーキテクチャに基づく7Bパラメータの言語モデルで、主にテキスト生成タスクに使用されます。モデルは英語をサポートし、さまざまなハードウェア要件に対応するために複数の量子化バージョンを提供しています。

モデル特徴

複数量子化バージョン

2ビットから8ビットまでの複数の量子化バージョンを提供し、さまざまなハードウェア要件と性能要求に対応します。

効率的な推論

GGUF形式をサポートし、llama.cpp、text-generation-webuiなどのさまざまな推論クライアントやライブラリと互換性があります。

柔軟なプロンプトテンプレート

DreamGenプロンプトテンプレートを使用し、システムメッセージと命令の柔軟な組み合わせをサポートします。

モデル能力

テキスト生成

命令追従

使用事例

クリエイティブライティング

ストーリー生成

ユーザーが提供したプロンプトに基づいて一貫性のあるストーリー内容を生成します。

コンテンツ作成

記事要約

長文記事の簡潔な要約を生成します。

🚀 Opus V0 7B - GGUF

このリポジトリは、自然言語処理の分野で使用されるOpus V0 7BモデルのGGUF形式のモデルファイルを提供しています。GGUF形式はモデルの推論や利用を効率的に行うために最適化されており、様々なクライアントやライブラリでの使用が可能です。

チャットとサポート: TheBlokeのDiscordサーバー

貢献したい方はこちら: TheBlokeのPatreonページ

TheBlokeのLLM関連の作業は、andreessen horowitz (a16z)からの助成金によって支援されています。

🚀 クイックスタート

このセクションでは、Opus V0 7B - GGUFモデルの基本的な使い方を説明します。まずは、モデルの概要を把握し、必要なファイルをダウンロードして、推論を実行するまでの流れを紹介します。

✨ 主な機能

多様なクライアントサポート: llama.cpp、text-generation-webui、KoboldCppなど、多くのクライアントやライブラリでの使用が可能です。
複数の量子化方法: Q2_K、Q3_K、Q4_Kなど、様々な量子化方法が提供されており、使用目的に応じて最適なモデルを選択できます。
GPUサポート: GPUを利用した高速な推論が可能で、VRAMを使用することでRAMの使用量を削減できます。

📦 インストール

GGUFファイルのダウンロード方法

手動でダウンロードする場合は、通常はリポジトリ全体をクローンする必要はありません。以下のクライアントやライブラリを使用すると、自動的にモデルをダウンロードしてくれます。

LM Studio
LoLLMS Web UI
Faraday.dev

`text-generation-webui`でのダウンロード方法

Download Modelの下にある入力欄に、モデルリポジトリ名 TheBloke/opus-v0-7B-GGUF と、ダウンロードしたいファイル名（例: opus-v0-7b.Q4_K_M.gguf）を入力し、Downloadをクリックします。

コマンドラインでのダウンロード方法

huggingface-hub Pythonライブラリを使用することをおすすめします。

pip3 install huggingface-hub

次に、以下のコマンドで任意のモデルファイルを高速でダウンロードできます。

huggingface-cli download TheBloke/opus-v0-7B-GGUF opus-v0-7b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

💻 使用例

基本的な使用法

`llama.cpp`での実行例

./main -ngl 32 -m opus-v0-7b.Q4_K_M.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "<setting>\n{system_message}\n</setting>\n\n<instruction>\n{prompt}\n</instruction>"

-ngl 32: GPUにオフロードするレイヤー数を指定します。GPUがない場合は削除します。
-c 2048: シーケンス長を指定します。拡張シーケンスモデルの場合は、必要なRoPEスケーリングパラメータが自動的に設定されます。

高度な使用法

Pythonコードでの使用例

ctransformers ライブラリを使用して、このモデルをPythonコードからロードする方法を紹介します。

まず、必要なパッケージをインストールします。

# 基本的なctransformers（GPUアクセラレーションなし）
pip install ctransformers
# またはCUDA GPUアクセラレーション付き
pip install ctransformers[cuda]
# またはAMD ROCm GPUアクセラレーション（Linuxのみ）
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# またはmacOSシステムのみのMetal GPUアクセラレーション
CT_METAL=1 pip install ctransformers --no-binary ctransformers

次に、以下のコードでモデルをロードして推論を実行します。

from ctransformers import AutoModelForCausalLM

# gpu_layersを、GPUにオフロードするレイヤー数に設定します。システムでGPUアクセラレーションが利用できない場合は0に設定します。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/opus-v0-7B-GGUF", model_file="opus-v0-7b.Q4_K_M.gguf", model_type="mistral", gpu_layers=50)

print(llm("AI is going to"))

📚 ドキュメント

プロンプトテンプレート

<setting>
{system_message}
</setting>

<instruction>
{prompt}
</instruction>

互換性

これらの量子化されたGGUFv2ファイルは、2023年8月27日以降のllama.cpp（コミット d0cee0d 以降）と互換性があります。また、多くのサードパーティのUIやライブラリとも互換性があります。

量子化方法の説明

詳細を表示するにはクリック

利用可能な新しい量子化方法は以下の通りです。 - **GGML_TYPE_Q2_K**: 16ブロックを含むスーパーブロックでの「タイプ1」2ビット量子化。各ブロックには16の重みがあります。ブロックのスケールと最小値は4ビットで量子化されます。これにより、1重みあたり実質的に2.5625ビット（bpw）が使用されます。 - **GGML_TYPE_Q3_K**: 16ブロックを含むスーパーブロックでの「タイプ0」3ビット量子化。各ブロックには16の重みがあります。スケールは6ビットで量子化されます。これにより、3.4375bpwが使用されます。 - **GGML_TYPE_Q4_K**: 8ブロックを含むスーパーブロックでの「タイプ1」4ビット量子化。各ブロックには32の重みがあります。スケールと最小値は6ビットで量子化されます。これにより、4.5bpwが使用されます。 - **GGML_TYPE_Q5_K**: 「タイプ1」5ビット量子化。GGML_TYPE_Q4_Kと同じスーパーブロック構造で、5.5bpwになります。 - **GGML_TYPE_Q6_K**: 「タイプ0」6ビット量子化。16ブロックのスーパーブロックで、各ブロックには16の重みがあります。スケールは8ビットで量子化されます。これにより、6.5625bpwが使用されます。

以下の「提供されるファイル」表を参照して、どのファイルがどの方法を使用しているかを確認してください。

提供されるファイル

名前	量子化方法	ビット数	サイズ	必要な最大RAM	使用目的
opus-v0-7b.Q2_K.gguf	Q2_K	2	3.08 GB	5.58 GB	最も小さいが、品質が大きく損失する - ほとんどの目的には推奨されない
opus-v0-7b.Q3_K_S.gguf	Q3_K_S	3	3.16 GB	5.66 GB	非常に小さいが、品質が大きく損失する
opus-v0-7b.Q3_K_M.gguf	Q3_K_M	3	3.52 GB	6.02 GB	非常に小さいが、品質が大きく損失する
opus-v0-7b.Q3_K_L.gguf	Q3_K_L	3	3.82 GB	6.32 GB	小さいが、品質が大幅に損失する
opus-v0-7b.Q4_0.gguf	Q4_0	4	4.11 GB	6.61 GB	レガシー; 小さいが、品質が非常に大きく損失する - Q3_K_Mを使用することを推奨
opus-v0-7b.Q4_K_S.gguf	Q4_K_S	4	4.14 GB	6.64 GB	小さいが、品質が大きく損失する
opus-v0-7b.Q4_K_M.gguf	Q4_K_M	4	4.37 GB	6.87 GB	中程度で、バランスの良い品質 - 推奨
opus-v0-7b.Q5_0.gguf	Q5_0	5	5.00 GB	7.50 GB	レガシー; 中程度で、バランスの良い品質 - Q4_K_Mを使用することを推奨
opus-v0-7b.Q5_K_S.gguf	Q5_K_S	5	5.00 GB	7.50 GB	大きいが、品質の損失が少ない - 推奨
opus-v0-7b.Q5_K_M.gguf	Q5_K_M	5	5.13 GB	7.63 GB	大きいが、品質の損失が非常に少ない - 推奨
opus-v0-7b.Q6_K.gguf	Q6_K	6	5.94 GB	8.44 GB	非常に大きいが、品質の損失が極めて少ない
opus-v0-7b.Q8_0.gguf	Q8_0	8	7.70 GB	10.20 GB	非常に大きいが、品質の損失が極めて少ない - 推奨されない

注意: 上記のRAMの数値は、GPUオフロードを行わない場合を想定しています。レイヤーをGPUにオフロードすると、RAMの使用量が減少し、代わりにVRAMが使用されます。

LangChainとの連携方法

llama-cpp-python と ctransformers をLangChainと連携する方法については、以下のガイドを参照してください。

📄 ライセンス

このリポジトリのモデルファイルは、それぞれのオリジナルモデルのライセンスに従います。詳細については、各モデルのリポジトリを参照してください。

Discord

これらのモデルやAI全般に関するさらなるサポートや議論に参加するには、以下のDiscordサーバーに参加してください。 TheBloke AI's Discord server

謝辞と貢献方法

chirper.ai チームに感謝します。 gpus.llm-utils.org のClayに感謝します。

多くの方から貢献の方法を尋ねられています。私はモデルを提供し、人々を助けることが好きで、もっと多くの時間を費やして、微調整やトレーニングなどの新しいプロジェクトにも取り組みたいと思っています。

もし貢献できる方がいらっしゃれば、大変感謝していただけます。これにより、より多くのモデルを提供し、新しいAIプロジェクトに取り組むことができます。

寄付者は、すべてのAI/LLM/モデルに関する質問やリクエストに対して優先的なサポートを受けることができ、プライベートなDiscordルームへのアクセス権や、その他の特典を享受できます。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別な感謝: Aemon Algiz。

Patreonでの特別な言及: Brandon Frisco、LangChain4j、Spiking Neurons AB、transmissions 11、Joseph William Delisle、Nitin Borwankar、Willem Michiel、Michael Dempsey、vamX、Jeffrey Morgan、zynix、jjj、Omer Bin Jawed、Sean Connelly、jinyuan sun、Jeromy Smith、Shadi、Pawan Osman、Chadd、Elijah Stavena、Illia Dulskyi、Sebastain Graf、Stephen Murray、terasurfer、Edmond Seymore、Celu Ramasamy、Mandus、Alex、biorpg、Ajan Kanaga、Clay Pascal、Raven Klaugh、阿明、K、ya boyyy、usrbinkat、Alicia Loh、John Villwock、ReadyPlayerEmma、Chris Smitley、Cap'n Zoog、fincy、GodLy、S_X、sidney chen、Cory Kujawski、OG、Mano Prime、AzureBlack、Pieter、Kalila、Spencer Kim、Tom X Nguyen、Stanislav Ovsiannikov、Michael Levine