Qwen2.5 VL 3B Instruct GPTQ Int3
Qwen2.5-VL-3B-InstructのGPTQ-Int3量子化バージョンで、マルチモーダル画像テキスト処理タスクに適しており、VRAM使用量が少なく、推論速度が速い。
画像生成テキスト
Transformers Supports Multiple LanguagesOpen Source License:Apache-2.0#マルチモーダル画像テキスト理解#GPTQ低ビット量子化#効率的な視覚的質問応答

Downloads 60
Release Time : 3/20/2025
Model Overview
これはQwen2.5-VL-3B-Instructモデルに基づくGPTQ-Int3量子化バージョンで、画像とテキストのマルチモーダルインタラクションタスク、例えば視覚的質問応答やOCR認識に焦点を当てています。
Model Features
効率的な量子化
GPTQ-Int3量子化技術を採用し、モデルのディスク使用量とVRAM要件を大幅に削減
マルチモーダルサポート
画像とテキスト入力を同時に処理し、視覚言語インタラクションを実現
性能維持
量子化後もChartQAやOCRBenchなどのタスク性能を高いレベルで維持
計算効率
AWQ量子化バージョンと比較して、VRAM使用量が少なく、推論速度が速い
Model Capabilities
画像キャプション生成
視覚的質問応答
OCRテキスト認識
マルチモーダルインタラクション
Use Cases
教育
チャート理解
学生が複雑なチャートのデータを理解するのを支援
ChartQAテストセットで76.68点を達成
ドキュメント処理
OCR強化
スキャンされたドキュメントの画像とテキスト内容を認識し理解
OCRBenchで742点を達成
コンテンツモデレーション
マルチモーダルコンテンツ分析
画像とテキストコンテンツを同時に分析してモデレーションを行う
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98