Virtuoso-Lite-GGUFオープンソースモデル - 量子化処理によるさまざまなハードウェアでの動作効率の向上

Home

Virtuoso Lite GGUF

Developed by bartowski

Virtuoso-Liteの量子化バージョンで、llama.cppを使用して量子化処理を行い、様々なハードウェアでの実行効率を向上させます。

大規模言語モデル Open Source License:Other #高効率な量子化推論 #多様なハードウェアへの適合 #オンライン重み最適化

Downloads 373

Release Time : 1/29/2025

Model Overview

Virtuoso-Liteの量子化バージョンで、複数の量子化タイプを提供し、様々なハードウェア環境と性能要件に適しています。

Model Features

複数の量子化タイプ

f32、Q8_0、Q6_K_Lなど、豊富な量子化タイプを提供し、さまざまなシナリオでのモデル品質と性能の要件を満たします。

オンライン再パッケージング

一部の量子化タイプはオンライン再パッケージングをサポートし、ハードウェアの状況に応じて自動的に重みを最適化し、性能を向上させます。

柔軟な選択

ユーザーは自身のハードウェアリソース（RAM、VRAMなど）と性能要件に基づいて、適切な量子化ファイルを選択できます。

Model Capabilities

テキスト生成

高効率推論

Use Cases

テキスト生成

対話システム

対話システムの構築に使用でき、ユーザーとモデルの対話をサポートします。

コンテンツ作成

記事、物語など、さまざまなタイプのテキストコンテンツの生成に使用できます。

🚀 Virtuoso-LiteのLlamacpp imatrix量子化バージョン

このプロジェクトは、llama.cppを使用してVirtuoso-Liteモデルを量子化したバージョンを提供しています。目的は、様々なハードウェアでのモデルの実行効率を向上させることです。

🚀 クイックスタート

実行環境

量子化後のモデルはLM Studioで実行できます。
llama.cppや他のllama.cppベースのプロジェクトを直接使用しても実行できます。

プロンプト形式

<|system|>
{system_prompt}
<|user|>
{prompt}
<|assistant|>

✨ 主な機能

多様な量子化タイプ：f32、Q8_0、Q6_K_Lなど、豊富な量子化タイプを提供し、様々なシナリオでのモデル品質とパフォーマンスの要件を満たします。
オンライン再パッケージング：一部の量子化タイプはオンライン再パッケージングをサポートしており、ハードウェアの状況に応じて自動的に重みを最適化し、パフォーマンスを向上させます。
柔軟な選択：ユーザーは自身のハードウェアリソース（RAM、VRAMなど）とパフォーマンス要件に基づいて、適切な量子化ファイルを選択できます。

📦 インストール

huggingface-cliを使用したダウンロード

まず、huggingface-cliがインストールされていることを確認してください。

pip install -U "huggingface_hub[cli]"

次に、ダウンロードする特定のファイルを指定できます。

huggingface-cli download bartowski/Virtuoso-Lite-GGUF --include "Virtuoso-Lite-Q4_K_M.gguf" --local-dir ./

モデルファイルが50GBを超える場合、複数のファイルに分割されます。これらをすべてローカルフォルダにダウンロードするには、以下のコマンドを実行します。

huggingface-cli download bartowski/Virtuoso-Lite-GGUF --include "Virtuoso-Lite-Q8_0/*" --local-dir ./

新しいローカルディレクトリ（例：Virtuoso-Lite-Q8_0）を指定することも、現在のディレクトリ（./）にすべてダウンロードすることもできます。

💻 使用例

基本的な使用法

LM Studioで対応する量子化ファイルを選択すると、モデルを使用できます。

高度な使用法

huggingface-cliを使用して特定の量子化ファイルをダウンロードする場合は、上記のインストールガイドのコマンドを参考にしてください。

📚 ドキュメント

量子化ファイルのダウンロード

ファイル名	量子化タイプ	ファイルサイズ	分割状況	説明
Virtuoso-Lite-f32.gguf	f32	41.23GB	false	完全なF32重み。
Virtuoso-Lite-Q8_0.gguf	Q8_0	10.96GB	false	極めて高品質。通常は必要ないが、利用可能な最高の量子化レベル。
Virtuoso-Lite-Q6_K_L.gguf	Q6_K_L	8.65GB	false	埋め込みと出力重みにQ8_0を使用。非常に高品質で、ほぼ完璧。推奨。
Virtuoso-Lite-Q6_K.gguf	Q6_K	8.46GB	false	非常に高品質で、ほぼ完璧。推奨。
Virtuoso-Lite-Q5_K_L.gguf	Q5_K_L	7.59GB	false	埋め込みと出力重みにQ8_0を使用。高品質。推奨。
Virtuoso-Lite-Q5_K_M.gguf	Q5_K_M	7.34GB	false	高品質。推奨。
Virtuoso-Lite-Q5_K_S.gguf	Q5_K_S	7.14GB	false	高品質。推奨。
Virtuoso-Lite-Q4_K_L.gguf	Q4_K_L	6.59GB	false	埋め込みと出力重みにQ8_0を使用。品質良好。推奨。
Virtuoso-Lite-Q4_1.gguf	Q4_1	6.53GB	false	旧形式。Q4_K_Sと同様のパフォーマンスが得られますが、Appleシリコンチップでの1ワットあたりのトークン数が向上します。
Virtuoso-Lite-Q4_K_M.gguf	Q4_K_M	6.29GB	false	品質良好。ほとんどのユースケースに適したデフォルトサイズ。推奨。
Virtuoso-Lite-Q4_K_S.gguf	Q4_K_S	5.95GB	false	品質はやや低いが、より多くのスペースを節約できます。推奨。
Virtuoso-Lite-Q4_0.gguf	Q4_0	5.93GB	false	旧形式。ARMおよびAVX CPU推論のためのオンライン再パッケージングをサポートします。
Virtuoso-Lite-IQ4_NL.gguf	IQ4_NL	5.91GB	false	IQ4_XSに似ていますが、やや大きいです。ARM CPU推論のためのオンライン再パッケージングをサポートします。
Virtuoso-Lite-Q3_K_XL.gguf	Q3_K_XL	5.80GB	false	埋め込みと出力重みにQ8_0を使用。品質は低いが利用可能。低メモリの場合に適しています。
Virtuoso-Lite-IQ4_XS.gguf	IQ4_XS	5.60GB	false	品質は良好で、Q4_K_Sより小さく、パフォーマンスも似ています。推奨。
Virtuoso-Lite-Q3_K_L.gguf	Q3_K_L	5.45GB	false	品質は低いが利用可能。低メモリの場合に適しています。
Virtuoso-Lite-Q3_K_M.gguf	Q3_K_M	5.05GB	false	低品質。
Virtuoso-Lite-IQ3_M.gguf	IQ3_M	4.70GB	false	中低品質。最新技術を採用しており、パフォーマンスはQ3_K_Mと同等です。
Virtuoso-Lite-Q3_K_S.gguf	Q3_K_S	4.59GB	false	低品質。推奨しません。
Virtuoso-Lite-IQ3_XS.gguf	IQ3_XS	4.37GB	false	品質は低いが、最新技術を採用しており、パフォーマンスはQ3_K_Sよりやや優れています。
Virtuoso-Lite-Q2_K_L.gguf	Q2_K_L	4.32GB	false	埋め込みと出力重みにQ8_0を使用。品質は非常に低いが、意外と利用可能です。
Virtuoso-Lite-Q2_K.gguf	Q2_K	3.92GB	false	品質は非常に低いが、意外と利用可能です。
Virtuoso-Lite-IQ2_M.gguf	IQ2_M	3.59GB	false	比較的低品質。最新技術を採用しており、意外と利用可能です。
Virtuoso-Lite-IQ2_S.gguf	IQ2_S	3.32GB	false	低品質。最新技術を採用しており、利用可能です。

埋め込み/出力重み

一部の量子化バージョン（Q3_K_XL、Q4_K_Lなど）は、標準的な量子化方法を採用し、埋め込みと出力重みをQ8_0に量子化しています。

ARM/AVX情報

以前は、Q4_0_4_4/4_8/8_8バージョンをダウンロードすることがありました。これらのバージョンの重みはメモリ内で交差配置されており、ARMおよびAVXマシンでより多くのデータを一度にロードすることでパフォーマンスを向上させます。

現在は、「オンライン再パッケージング」重み機能があります。詳細はこのPRを参照してください。Q4_0を使用し、ハードウェアが重みの再パッケージングから恩恵を受ける場合、自動的にリアルタイムで処理されます。

llama.cppの構築バージョンb4282から、Q4_0_X_Xファイルを実行することはできなくなり、Q4_0を使用する必要があります。

また、やや高い品質が必要な場合は、IQ4_NLを使用できます。このPRのおかげで、ARM用に重みが再パッケージングされますが、現在は4_4のみサポートされています。ロード時間は長くなる可能性がありますが、全体的な速度は向上します。

ファイルの選択方法

詳細を表示するにはクリック

Artefact2は、様々なパフォーマンスを示す素晴らしいグラフ付きの記事を提供しています。リンクはこちらです。

まず、実行できるモデルのサイズを決定する必要があります。このためには、システムメモリ（RAM）と/またはグラフィックメモリ（VRAM）の容量を把握する必要があります。

モデルをできるだけ高速に実行したい場合は、モデル全体をGPUのグラフィックメモリに収める必要があります。GPUの総グラフィックメモリよりも1 - 2GB小さいファイルサイズの量子化バージョンを選択してください。

絶対的な最高品質を追求する場合は、システムメモリとGPUのグラフィックメモリを合計し、その合計よりも1 - 2GB小さいファイルサイズの量子化バージョンを選択してください。

次に、「I量子化」または「K量子化」を使用するかを決定する必要があります。

あまり考えたくない場合は、K量子化バージョンを選択してください。これらのバージョンは'QX_K_X'の形式です。例えば、Q5_K_Mです。

詳細を知りたい場合は、この非常に有用な機能グラフを参照してください。

llama.cpp機能マトリックス

基本的に、Q4より低い量子化を目標とし、cuBLAS（Nvidia）またはrocBLAS（AMD）を使用する場合は、I量子化バージョンを検討してください。これらのバージョンはIQX_Xの形式です。例えば、IQ3_Mです。これらは新しいバージョンであり、同じサイズでより良いパフォーマンスを提供します。

これらのI量子化バージョンは、CPUおよびApple Metalでも使用できますが、対応するK量子化バージョンよりも遅くなります。したがって、速度とパフォーマンスのトレードオフを考慮する必要があります。

I量子化バージョンはVulcan（AMDのもの）と互換性がありません。したがって、AMDグラフィックカードを持っている場合は、rocBLASバージョンまたはVulcanバージョンを使用しているかどうかを確認してください。この記事の執筆時点で、LM StudioにはROCmをサポートするプレビューバージョンがあり、他の推論エンジンにもROCm用の特定のバージョンがあります。