ホーム

Qwen2.5 VL 3B Instruct GGUF

Mungertによって開発

Qwen2.5-VL-3B-Instructは3Bパラメータ規模のマルチモーダルモデルで、画像テキスト生成タスクをサポートし、特にllama.cppでの視覚機能サポートを最適化しています。

テキスト生成画像英語#マルチモーダル画像テキスト理解 #超低位量子化 #エッジデバイス展開

ダウンロード数 10.44k

リリース時間 : 3/27/2025

モデル概要

このモデルは視覚と言語能力を組み合わせたマルチモーダルモデルで、画像に関連するテキストコンテンツを理解し生成できます。

モデル特徴

マルチモーダルサポート

視覚と言語情報を同時に処理し、画像テキストインタラクションを実現

llama.cpp最適化

特にllama.cppフォークバージョンに適合し、視覚機能をサポート

超低位量子化

IQ-DynamicGate超低位量子化(1-2ビット)をサポートし、性能を維持しながらモデルサイズを削減

モデル能力

画像キャプション生成

視覚的質問応答

マルチモーダル推論

使用事例

コンテンツ生成

画像キャプション

入力画像に対して詳細な説明を生成

画像内容に合致する自然言語記述を生成

視覚支援

視覚的質問応答

画像内容に関する質問に回答

画像に関連する正確な回答を提供

license_name: qwen-research license_link: https://huggingface.co/Qwen/Qwen2.5-VL-3B-Instruct/blob/main/LICENSE language:

en pipeline_tag: image-text-to-text tags:
multimodal library_name: transformers

Qwen2.5-VL-3B-Instruct GGUFモデル

これらのファイルはimatrixファイルと最新のllama.cppビルドを使用して構築されています。このモデルでビジョン機能を使用するには、llama.cppのフォークを使用する必要があります。

llama.cppでQwen 2.5 VL Instructを使用する方法

llama.cppでQwen 2.5 VLの実験的サポートを利用するには、以下の手順に従ってください：注意：現在メインブランチではこのモデルのビジョン機能はサポートされていません

最新のllama.cppフォークをクローン：

git clone https://github.com/HimariO/llama.cpp.qwen2vl.git
cd llama.cpp.qwen2vl
git checkout qwen25-vl-20250404

Llama.cppをビルド：

通常通りllama.cppをビルド：https://github.com/ggml-org/llama.cpp#building-the-project

ビルドが完了したら、./llama.cpp.qwen2vl/build/bin/llama-qwen2-vl-cliを選択したフォルダにコピーします。

Qwen 2.5 VL ggufファイルをダウンロード：

https://huggingface.co/Mungert/Qwen2.5-VL-3B-Instruct-GGUF/tree/main

mmprojが名前に含まれていないggufファイルを選択

例：https://huggingface.co/Mungert/Mungert/Qwen2.5-VL-3B-Instruct-GGUF/resolve/main/Qwen2.5-VL-3B-Instruct-q8_0.gguf

このファイルを選択したフォルダにコピー。

Qwen 2.5 VL mmprojファイルをダウンロード

https://huggingface.co/Mungert/Qwen2.5-VL-3B-Instruct-GGUF/tree/main

mmprojが名前に含まれるファイルを選択

例：https://huggingface.co/Mungert/Qwen2.5-VL-3B-Instruct-GGUF/resolve/main/Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf

このファイルを選択したフォルダにコピー。

画像をggufファイルと同じフォルダにコピーするか、適切にパスを変更します。

以下の例では、ggufファイル、画像、llama-qwen2vl-cliが同じフォルダにあります。

例画像：https://huggingface.co/Mungert/Qwen2.5-VL-3B-Instruct-GGUF/resolve/main/car-1.jpg

このファイルを選択したフォルダにコピー。

CLIツールを実行：

選択したフォルダから：

llama-qwen2vl-cli -m Qwen2.5-VL-3B-Instruct-q8_0.gguf --mmproj Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf  -p "この画像を説明してください。" --image ./car-1.jpg

IQ-DynamicGateによる超低ビット量子化（1-2ビット）

私たちの最新の量子化手法では、精度適応型量子化を導入し、超低ビットモデル（1-2ビット）においてベンチマークで証明された改善を実現しています。このアプローチでは、レイヤーごとの戦略を使用して精度を維持しながら、極端なメモリ効率を実現します。

ベンチマークコンテキスト

すべてのテストはLlama-3-8B-Instructを使用して実施：

標準的なパープレキシティ評価パイプライン
2048トークンのコンテキストウィンドウ
すべての量子化で同じプロンプトセットを使用

方法

動的精度割り当て：
- 最初/最後の25%のレイヤー → IQ4_XS（選択されたレイヤー）
- 中間の50% → IQ2_XXS/IQ3_S（効率向上）
重要なコンポーネントの保護：
- 埋め込み/出力レイヤーはQ5_Kを使用
- 標準的な1-2ビットと比べてエラー伝播を38%削減

量子化性能比較（Llama-3-8B）

量子化	標準PPL	DynamicGate PPL	Δ PPL	標準サイズ	DGサイズ	Δサイズ	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s