Q

Qwen2.5 VL 3B Instruct GPTQ Int3

Developed by hfl
Qwen2.5-VL-3B-InstructのGPTQ-Int3量子化バージョンで、マルチモーダル画像テキスト処理タスクに適しており、VRAM使用量が少なく、推論速度が速い。
Downloads 60
Release Time : 3/20/2025

Model Overview

これはQwen2.5-VL-3B-Instructモデルに基づくGPTQ-Int3量子化バージョンで、画像とテキストのマルチモーダルインタラクションタスク、例えば視覚的質問応答やOCR認識に焦点を当てています。

Model Features

効率的な量子化
GPTQ-Int3量子化技術を採用し、モデルのディスク使用量とVRAM要件を大幅に削減
マルチモーダルサポート
画像とテキスト入力を同時に処理し、視覚言語インタラクションを実現
性能維持
量子化後もChartQAやOCRBenchなどのタスク性能を高いレベルで維持
計算効率
AWQ量子化バージョンと比較して、VRAM使用量が少なく、推論速度が速い

Model Capabilities

画像キャプション生成
視覚的質問応答
OCRテキスト認識
マルチモーダルインタラクション

Use Cases

教育
チャート理解
学生が複雑なチャートのデータを理解するのを支援
ChartQAテストセットで76.68点を達成
ドキュメント処理
OCR強化
スキャンされたドキュメントの画像とテキスト内容を認識し理解
OCRBenchで742点を達成
コンテンツモデレーション
マルチモーダルコンテンツ分析
画像とテキストコンテンツを同時に分析してモデレーションを行う
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase