モデル概要
モデル特徴
モデル能力
使用事例
🚀 Opus V0 7B - GGUF
このリポジトリは、自然言語処理の分野で使用されるOpus V0 7BモデルのGGUF形式のモデルファイルを提供しています。GGUF形式はモデルの推論や利用を効率的に行うために最適化されており、様々なクライアントやライブラリでの使用が可能です。

TheBlokeのLLM関連の作業は、andreessen horowitz (a16z)からの助成金によって支援されています。
🚀 クイックスタート
このセクションでは、Opus V0 7B - GGUFモデルの基本的な使い方を説明します。まずは、モデルの概要を把握し、必要なファイルをダウンロードして、推論を実行するまでの流れを紹介します。
✨ 主な機能
- 多様なクライアントサポート: llama.cpp、text-generation-webui、KoboldCppなど、多くのクライアントやライブラリでの使用が可能です。
- 複数の量子化方法: Q2_K、Q3_K、Q4_Kなど、様々な量子化方法が提供されており、使用目的に応じて最適なモデルを選択できます。
- GPUサポート: GPUを利用した高速な推論が可能で、VRAMを使用することでRAMの使用量を削減できます。
📦 インストール
GGUFファイルのダウンロード方法
手動でダウンロードする場合は、通常はリポジトリ全体をクローンする必要はありません。以下のクライアントやライブラリを使用すると、自動的にモデルをダウンロードしてくれます。
- LM Studio
- LoLLMS Web UI
- Faraday.dev
text-generation-webui
でのダウンロード方法
Download Modelの下にある入力欄に、モデルリポジトリ名 TheBloke/opus-v0-7B-GGUF
と、ダウンロードしたいファイル名(例: opus-v0-7b.Q4_K_M.gguf
)を入力し、Downloadをクリックします。
コマンドラインでのダウンロード方法
huggingface-hub
Pythonライブラリを使用することをおすすめします。
pip3 install huggingface-hub
次に、以下のコマンドで任意のモデルファイルを高速でダウンロードできます。
huggingface-cli download TheBloke/opus-v0-7B-GGUF opus-v0-7b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
💻 使用例
基本的な使用法
llama.cpp
での実行例
./main -ngl 32 -m opus-v0-7b.Q4_K_M.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "<setting>\n{system_message}\n</setting>\n\n<instruction>\n{prompt}\n</instruction>"
-ngl 32
: GPUにオフロードするレイヤー数を指定します。GPUがない場合は削除します。-c 2048
: シーケンス長を指定します。拡張シーケンスモデルの場合は、必要なRoPEスケーリングパラメータが自動的に設定されます。
高度な使用法
Pythonコードでの使用例
ctransformers
ライブラリを使用して、このモデルをPythonコードからロードする方法を紹介します。
まず、必要なパッケージをインストールします。
# 基本的なctransformers(GPUアクセラレーションなし)
pip install ctransformers
# またはCUDA GPUアクセラレーション付き
pip install ctransformers[cuda]
# またはAMD ROCm GPUアクセラレーション(Linuxのみ)
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# またはmacOSシステムのみのMetal GPUアクセラレーション
CT_METAL=1 pip install ctransformers --no-binary ctransformers
次に、以下のコードでモデルをロードして推論を実行します。
from ctransformers import AutoModelForCausalLM
# gpu_layersを、GPUにオフロードするレイヤー数に設定します。システムでGPUアクセラレーションが利用できない場合は0に設定します。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/opus-v0-7B-GGUF", model_file="opus-v0-7b.Q4_K_M.gguf", model_type="mistral", gpu_layers=50)
print(llm("AI is going to"))
📚 ドキュメント
プロンプトテンプレート
<setting>
{system_message}
</setting>
<instruction>
{prompt}
</instruction>
互換性
これらの量子化されたGGUFv2ファイルは、2023年8月27日以降のllama.cpp(コミット d0cee0d 以降)と互換性があります。また、多くのサードパーティのUIやライブラリとも互換性があります。
量子化方法の説明
詳細を表示するにはクリック
利用可能な新しい量子化方法は以下の通りです。 - **GGML_TYPE_Q2_K**: 16ブロックを含むスーパーブロックでの「タイプ1」2ビット量子化。各ブロックには16の重みがあります。ブロックのスケールと最小値は4ビットで量子化されます。これにより、1重みあたり実質的に2.5625ビット(bpw)が使用されます。 - **GGML_TYPE_Q3_K**: 16ブロックを含むスーパーブロックでの「タイプ0」3ビット量子化。各ブロックには16の重みがあります。スケールは6ビットで量子化されます。これにより、3.4375bpwが使用されます。 - **GGML_TYPE_Q4_K**: 8ブロックを含むスーパーブロックでの「タイプ1」4ビット量子化。各ブロックには32の重みがあります。スケールと最小値は6ビットで量子化されます。これにより、4.5bpwが使用されます。 - **GGML_TYPE_Q5_K**: 「タイプ1」5ビット量子化。GGML_TYPE_Q4_Kと同じスーパーブロック構造で、5.5bpwになります。 - **GGML_TYPE_Q6_K**: 「タイプ0」6ビット量子化。16ブロックのスーパーブロックで、各ブロックには16の重みがあります。スケールは8ビットで量子化されます。これにより、6.5625bpwが使用されます。以下の「提供されるファイル」表を参照して、どのファイルがどの方法を使用しているかを確認してください。
提供されるファイル
名前 | 量子化方法 | ビット数 | サイズ | 必要な最大RAM | 使用目的 |
---|---|---|---|---|---|
opus-v0-7b.Q2_K.gguf | Q2_K | 2 | 3.08 GB | 5.58 GB | 最も小さいが、品質が大きく損失する - ほとんどの目的には推奨されない |
opus-v0-7b.Q3_K_S.gguf | Q3_K_S | 3 | 3.16 GB | 5.66 GB | 非常に小さいが、品質が大きく損失する |
opus-v0-7b.Q3_K_M.gguf | Q3_K_M | 3 | 3.52 GB | 6.02 GB | 非常に小さいが、品質が大きく損失する |
opus-v0-7b.Q3_K_L.gguf | Q3_K_L | 3 | 3.82 GB | 6.32 GB | 小さいが、品質が大幅に損失する |
opus-v0-7b.Q4_0.gguf | Q4_0 | 4 | 4.11 GB | 6.61 GB | レガシー; 小さいが、品質が非常に大きく損失する - Q3_K_Mを使用することを推奨 |
opus-v0-7b.Q4_K_S.gguf | Q4_K_S | 4 | 4.14 GB | 6.64 GB | 小さいが、品質が大きく損失する |
opus-v0-7b.Q4_K_M.gguf | Q4_K_M | 4 | 4.37 GB | 6.87 GB | 中程度で、バランスの良い品質 - 推奨 |
opus-v0-7b.Q5_0.gguf | Q5_0 | 5 | 5.00 GB | 7.50 GB | レガシー; 中程度で、バランスの良い品質 - Q4_K_Mを使用することを推奨 |
opus-v0-7b.Q5_K_S.gguf | Q5_K_S | 5 | 5.00 GB | 7.50 GB | 大きいが、品質の損失が少ない - 推奨 |
opus-v0-7b.Q5_K_M.gguf | Q5_K_M | 5 | 5.13 GB | 7.63 GB | 大きいが、品質の損失が非常に少ない - 推奨 |
opus-v0-7b.Q6_K.gguf | Q6_K | 6 | 5.94 GB | 8.44 GB | 非常に大きいが、品質の損失が極めて少ない |
opus-v0-7b.Q8_0.gguf | Q8_0 | 8 | 7.70 GB | 10.20 GB | 非常に大きいが、品質の損失が極めて少ない - 推奨されない |
注意: 上記のRAMの数値は、GPUオフロードを行わない場合を想定しています。レイヤーをGPUにオフロードすると、RAMの使用量が減少し、代わりにVRAMが使用されます。
LangChainとの連携方法
llama-cpp-python
と ctransformers
をLangChainと連携する方法については、以下のガイドを参照してください。
📄 ライセンス
このリポジトリのモデルファイルは、それぞれのオリジナルモデルのライセンスに従います。詳細については、各モデルのリポジトリを参照してください。
Discord
これらのモデルやAI全般に関するさらなるサポートや議論に参加するには、以下のDiscordサーバーに参加してください。 TheBloke AI's Discord server
謝辞と貢献方法
chirper.ai チームに感謝します。 gpus.llm-utils.org のClayに感謝します。
多くの方から貢献の方法を尋ねられています。私はモデルを提供し、人々を助けることが好きで、もっと多くの時間を費やして、微調整やトレーニングなどの新しいプロジェクトにも取り組みたいと思っています。
もし貢献できる方がいらっしゃれば、大変感謝していただけます。これにより、より多くのモデルを提供し、新しいAIプロジェクトに取り組むことができます。
寄付者は、すべてのAI/LLM/モデルに関する質問やリクエストに対して優先的なサポートを受けることができ、プライベートなDiscordルームへのアクセス権や、その他の特典を享受できます。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特別な感謝: Aemon Algiz。
Patreonでの特別な言及: Brandon Frisco、LangChain4j、Spiking Neurons AB、transmissions 11、Joseph William Delisle、Nitin Borwankar、Willem Michiel、Michael Dempsey、vamX、Jeffrey Morgan、zynix、jjj、Omer Bin Jawed、Sean Connelly、jinyuan sun、Jeromy Smith、Shadi、Pawan Osman、Chadd、Elijah Stavena、Illia Dulskyi、Sebastain Graf、Stephen Murray、terasurfer、Edmond Seymore、Celu Ramasamy、Mandus、Alex、biorpg、Ajan Kanaga、Clay Pascal、Raven Klaugh、阿明、K、ya boyyy、usrbinkat、Alicia Loh、John Villwock、ReadyPlayerEmma、Chris Smitley、Cap'n Zoog、fincy、GodLy、S_X、sidney chen、Cory Kujawski、OG、Mano Prime、AzureBlack、Pieter、Kalila、Spencer Kim、Tom X Nguyen、Stanislav Ovsiannikov、Michael Levine



