Q

Qwen2 VL 2B Instruct GGUF

second-stateによって開発
Qwen2-VL-2B-Instruct はマルチモーダルな視覚言語モデルで、画像テキスト生成タスクをサポートし、Qwen2 アーキテクチャに基づいており、パラメータ規模は2Bです。
ダウンロード数 125
リリース時間 : 12/15/2024

モデル概要

このモデルはマルチモーダルな視覚言語モデルで、画像とテキスト入力を処理し、関連するテキスト出力を生成できます。視覚と言語理解を組み合わせる必要があるアプリケーションシナリオに適しています。

モデル特徴

マルチモーダルサポート
画像とテキスト入力を同時に処理し、関連するテキスト出力を生成できます。
効率的な量子化
さまざまな量子化バージョンのモデルを提供し、異なるハードウェアと性能要件に対応します。
長いコンテキストサポート
最大32000のコンテキスト長をサポートし、複雑なタスクの処理に適しています。

モデル能力

画像テキスト生成
マルチモーダル理解
ビジュアルQA

使用事例

ビジュアルQA
画像説明生成
入力画像に基づいて詳細なテキスト説明を生成します。
ビジュアルQA
入力画像に関する質問に答えます。
マルチモーダルインタラクション
画像とテキストを組み合わせたタスク
画像とテキスト入力を組み合わせ、関連するテキスト出力を生成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase