Q

Qwen2.5 VL 3B Instruct Quantized.w4a16

Developed by RedHatAI
Qwen2.5-VL-3B-Instruct的量化版本,權重量化為INT4,激活量化為FP16,適用於視覺-文本任務的高效推理。
Downloads 167
Release Time : 2/7/2025

Model Overview

該模型是基於Qwen/Qwen2.5-VL-3B-Instruct的量化版本,專為視覺-文本任務優化,支持高效的文本生成和視覺理解。

Model Features

高效量化
權重量化為INT4,激活量化為FP16,顯著提升推理效率。
多模態支持
支持視覺和文本輸入,能夠理解和生成與圖像相關的文本內容。
高性能推理
通過vLLM後端實現高效部署,支持單流和多流異步推理。

Model Capabilities

視覺-文本理解
文本生成
圖像內容分析
多模態任務處理

Use Cases

視覺問答
圖像內容描述
根據輸入的圖像生成詳細的文本描述。
在VQAv2數據集上達到73.58的準確率。
文檔視覺問答
回答與文檔圖像內容相關的問題。
在DocVQA數據集上達到91.58的ANLS分數。
視覺推理
數學視覺問題解答
解決包含數學公式和圖像的複雜問題。
在Mathvista數據集上達到45.75的準確率。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase