🚀 QVQ-72B-Preview AWQ 4位量化版本
本仓库提供了由通义团队(Qwen)开发的QVQ-72B-Preview模型的AWQ 4位量化版本。该模型在量化前对权重进行了零填充,以解决可除性约束,确保与多GPU张量并行兼容。这种填充对计算的影响极小,同时能够在多个GPU上实现高效扩展。
🚀 快速开始
本仓库提供了Qwen团队最初开发的QVQ-72B-Preview模型的AWQ 4位量化版本。该模型的权重在量化前进行了零填充,以确保与多GPU张量并行兼容,通过解决可除性约束来实现。这种填充对计算的影响极小,同时能够在多个GPU上实现高效扩展。
✨ 主要特性
QVQ-72B-Preview介绍
QVQ-72B-Preview 是通义团队开发的一个实验性研究模型,专注于增强视觉推理能力。
性能表现
评测指标 |
QVQ-72B-Preview |
o1-2024-12-17 |
gpt-4o-2024-05-13 |
Claude3.5 Sonnet-20241022 |
Qwen2VL-72B |
MMMU(val) |
70.3 |
77.3 |
69.1 |
70.4 |
64.5 |
MathVista(mini) |
71.4 |
71.0 |
63.8 |
65.3 |
70.5 |
MathVision(full) |
35.9 |
– |
30.4 |
35.6 |
25.9 |
OlympiadBench |
20.4 |
– |
25.9 |
– |
11.2 |
QVQ-72B-Preview 在各种评测基准上取得了显著的性能表现。在多模态大规模多任务理解(MMMU)基准测试中,它取得了令人瞩目的70.3%的成绩,展示了QVQ在多学科理解和推理方面的强大能力。此外,在MathVision上的显著改进凸显了该模型在数学推理任务中的进展。OlympiadBench也证明了该模型在解决挑战性问题方面的能力有所提升。
模型局限性
虽然 QVQ-72B-Preview 展现出了超越预期的有前景的性能,但也需要认识到它存在的一些局限性:
- 语言混合和代码切换:模型偶尔可能会混合不同语言或意外地在它们之间切换,这可能会影响其回答的清晰度。
- 递归推理循环:模型有陷入递归推理循环的风险,导致冗长的回答,甚至可能无法得出最终答案。
- 安全和伦理考虑:需要强大的安全措施来确保可靠和安全的性能。用户在部署此模型时应谨慎行事。
- 性能和基准测试局限性:尽管在视觉推理方面有所改进,但QVQ并不能完全取代Qwen2-VL-72B的能力。在多步视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致产生幻觉。此外,在识别人、动物或植物等基本识别任务中,QVQ相较于Qwen2-VL-72B并没有显著的改进。
⚠️ 重要提示
目前,该模型仅支持单轮对话和图像输出,不支持视频输入。
📄 许可证
📚 详细文档
引用说明
如果您觉得我们的工作有帮助,请引用以下内容:
@misc{qvq-72b-preview,
title = {QVQ: To See the World with Wisdom},
url = {https://qwenlm.github.io/blog/qvq-72b-preview/},
author = {Qwen Team},
month = {December},
year = {2024}
}
@article{Qwen2VL,
title={Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution},
author={Wang, Peng and Bai, Shuai and Tan, Sinan and Wang, Shijie and Fan, Zhihao and Bai, Jinze and Chen, Keqin and Liu, Xuejing and Wang, Jialin and Ge, Wenbin and Fan, Yang and Dang, Kai and Du, Mengfei and Ren, Xuancheng and Men, Rui and Liu, Dayiheng and Zhou, Chang and Zhou, Jingren and Lin, Junyang},
journal={arXiv preprint arXiv:2409.12191},
year={2024}
}