Qwen2.5-VL-32B-Instruct-GGUFオープンソースマルチモーダルモデル - 画像とテキストの連携理解と生成をサポート

Qwen2.5 VL 32B Instruct GGUF

Mungertによって開発

Qwen2.5-VL-32B-Instructは32Bパラメータ規模のマルチモーダル視覚言語モデルで、画像とテキストの共同理解と生成タスクをサポートします。

画像生成テキスト英語オープンソースライセンス:Apache-2.0 #マルチモーダル命令理解 #32B大規模パラメータ #画像テキストインタラクション

ダウンロード数 9,766

リリース時間 : 3/28/2025

モデル概要

このモデルはQwen2.5アーキテクチャに基づくマルチモーダルモデルで、画像とテキストの共同入力を処理し、視覚的質問応答、画像キャプション生成などのタスクを実行できます。GGUFフォーマットはllama.cppなどのフレームワーク上での推論効率を最適化しています。

モデル特徴

マルチモーダル理解

画像とテキスト入力を同時に処理し、両者の関連性を理解できる

効率的な推論

GGUFフォーマットによりllama.cppなどのフレームワーク上での推論効率が最適化されている

大規模パラメータ

32Bパラメータ規模が強力な理解と生成能力を提供する

モデル能力

視覚的質問応答

画像キャプション生成

マルチモーダル対話

画像内容理解

クロスモーダル推論

使用事例

コンテンツ作成

自動画像タグ付け

画像に対して詳細なテキスト記述を生成する

画像検索効率とアクセシビリティの向上

インテリジェントアシスタント

視覚的質問応答システム

画像内容に関する自然言語質問に回答する

ユーザー体験とインタラクティブ性の向上

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Qwen2.5 VL 32B Instruct GGUF

モデル概要

モデル特徴

モデル能力

使用事例

Qwen2.5-VL-32B-Instruct GGUFモデル

llama.cppでのQwen 2.5 VL Instructの使用方法（2025年5月10日時点最新版）