Q

Qwen2.5 VL 3B Instruct GGUF

Mungertによって開発
Qwen2.5-VL-3B-Instructは3Bパラメータ規模のマルチモーダルモデルで、画像テキスト生成タスクをサポートし、特にllama.cppでの視覚機能サポートを最適化しています。
ダウンロード数 10.44k
リリース時間 : 3/27/2025

モデル概要

このモデルは視覚と言語能力を組み合わせたマルチモーダルモデルで、画像に関連するテキストコンテンツを理解し生成できます。

モデル特徴

マルチモーダルサポート
視覚と言語情報を同時に処理し、画像テキストインタラクションを実現
llama.cpp最適化
特にllama.cppフォークバージョンに適合し、視覚機能をサポート
超低位量子化
IQ-DynamicGate超低位量子化(1-2ビット)をサポートし、性能を維持しながらモデルサイズを削減

モデル能力

画像キャプション生成
視覚的質問応答
マルチモーダル推論

使用事例

コンテンツ生成
画像キャプション
入力画像に対して詳細な説明を生成
画像内容に合致する自然言語記述を生成
視覚支援
視覚的質問応答
画像内容に関する質問に回答
画像に関連する正確な回答を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase