🚀 QVQ-72B-Preview AWQ 4位量化版本
本倉庫提供了由通義團隊(Qwen)開發的QVQ-72B-Preview模型的AWQ 4位量化版本。該模型在量化前對權重進行了零填充,以解決可除性約束,確保與多GPU張量並行兼容。這種填充對計算的影響極小,同時能夠在多個GPU上實現高效擴展。
🚀 快速開始
本倉庫提供了Qwen團隊最初開發的QVQ-72B-Preview模型的AWQ 4位量化版本。該模型的權重在量化前進行了零填充,以確保與多GPU張量並行兼容,通過解決可除性約束來實現。這種填充對計算的影響極小,同時能夠在多個GPU上實現高效擴展。
✨ 主要特性
QVQ-72B-Preview介紹
QVQ-72B-Preview 是通義團隊開發的一個實驗性研究模型,專注於增強視覺推理能力。
性能表現
評測指標 |
QVQ-72B-Preview |
o1-2024-12-17 |
gpt-4o-2024-05-13 |
Claude3.5 Sonnet-20241022 |
Qwen2VL-72B |
MMMU(val) |
70.3 |
77.3 |
69.1 |
70.4 |
64.5 |
MathVista(mini) |
71.4 |
71.0 |
63.8 |
65.3 |
70.5 |
MathVision(full) |
35.9 |
– |
30.4 |
35.6 |
25.9 |
OlympiadBench |
20.4 |
– |
25.9 |
– |
11.2 |
QVQ-72B-Preview 在各種評測基準上取得了顯著的性能表現。在多模態大規模多任務理解(MMMU)基準測試中,它取得了令人矚目的70.3%的成績,展示了QVQ在多學科理解和推理方面的強大能力。此外,在MathVision上的顯著改進凸顯了該模型在數學推理任務中的進展。OlympiadBench也證明了該模型在解決挑戰性問題方面的能力有所提升。
模型侷限性
雖然 QVQ-72B-Preview 展現出了超越預期的有前景的性能,但也需要認識到它存在的一些侷限性:
- 語言混合和代碼切換:模型偶爾可能會混合不同語言或意外地在它們之間切換,這可能會影響其回答的清晰度。
- 遞歸推理循環:模型有陷入遞歸推理循環的風險,導致冗長的回答,甚至可能無法得出最終答案。
- 安全和倫理考慮:需要強大的安全措施來確保可靠和安全的性能。用戶在部署此模型時應謹慎行事。
- 性能和基準測試侷限性:儘管在視覺推理方面有所改進,但QVQ並不能完全取代Qwen2-VL-72B的能力。在多步視覺推理過程中,模型可能會逐漸失去對圖像內容的關注,導致產生幻覺。此外,在識別人、動物或植物等基本識別任務中,QVQ相較於Qwen2-VL-72B並沒有顯著的改進。
⚠️ 重要提示
目前,該模型僅支持單輪對話和圖像輸出,不支持視頻輸入。
📄 許可證
📚 詳細文檔
引用說明
如果您覺得我們的工作有幫助,請引用以下內容:
@misc{qvq-72b-preview,
title = {QVQ: To See the World with Wisdom},
url = {https://qwenlm.github.io/blog/qvq-72b-preview/},
author = {Qwen Team},
month = {December},
year = {2024}
}
@article{Qwen2VL,
title={Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution},
author={Wang, Peng and Bai, Shuai and Tan, Sinan and Wang, Shijie and Fan, Zhihao and Bai, Jinze and Chen, Keqin and Liu, Xuejing and Wang, Jialin and Ge, Wenbin and Fan, Yang and Dang, Kai and Du, Mengfei and Ren, Xuancheng and Men, Rui and Liu, Dayiheng and Zhou, Chang and Zhou, Jingren and Lin, Junyang},
journal={arXiv preprint arXiv:2409.12191},
year={2024}
}