🚀 Qwen2.5-Omni-7B-GPTQ-Int4
Qwen2.5-Omni-7B-GPTQ-Int4 是一個端到端的多模態模型,能夠感知文本、圖像、音頻和視頻等多種模態信息,並以流式方式生成文本和自然語音響應,有效提升了在不同硬件配置下的運行效率。
🚀 快速開始
本模型卡介紹了一系列旨在提升 Qwen2.5-Omni-7B 在 GPU 內存受限設備上可操作性的增強功能。關鍵優化點如下:
- 使用 GPTQ 對 Thinker 的權重進行 4 位量化,有效減少 GPU VRAM 的使用。
- 增強推理管道,使每個模塊按需加載模型權重,並在推理完成後將其卸載到 CPU 內存,防止 VRAM 峰值使用過高。
- 將 token2wav 模塊轉換為支持流式推理,避免預先分配過多的 GPU 內存。
- 將 ODE 求解器從二階(RK4)方法調整為一階(Euler)方法,進一步降低計算開銷。
這些改進旨在確保 Qwen2.5-Omni 在各種硬件配置下,尤其是 GPU 內存較低的設備(如 RTX3080、4080、5070 等)上高效運行。
以下是使用 gptqmodel
調用 Qwen2.5-Omni-7B-GPTQ-Int4 的簡單示例:
pip uninstall transformers
pip install git+https://github.com/huggingface/transformers@v4.51.3-Qwen2.5-Omni-preview
pip install accelerate
pip install gptqmodel==2.0.0
pip install numpy==2.0.0
git clone https://github.com/QwenLM/Qwen2.5-Omni.git
cd Qwen2.5-Omni/low-VRAM-mode/
CUDA_VISIBLE_DEVICES=0 python3 low_VRAM_demo_gptq.py
我們提供了一個工具包,可幫助你更方便地處理各種類型的音頻和視覺輸入,就像使用 API 一樣。它支持 base64、URL 以及交錯的音頻、圖像和視頻。你可以使用以下命令安裝該工具包,並確保你的系統已安裝 ffmpeg
:
pip install qwen-omni-utils[decord] -U
如果你不使用 Linux 系統,可能無法從 PyPI 安裝 decord
。在這種情況下,你可以使用 pip install qwen-omni-utils -U
,它將回退到使用 torchvision 進行視頻處理。不過,你仍然可以從源代碼安裝 decord,以便在加載視頻時使用 decord。
性能和 GPU 內存要求
以下兩個表格展示了 Qwen2.5-Omni-7B-GPTQ-Int4 和 Qwen2.5-Omni-7B 在特定評估基準上的性能比較和 GPU 內存消耗情況。數據表明,GPTQ-Int4 模型在保持相近性能的同時,將 GPU 內存需求降低了 50% 以上,使更多設備能夠運行和體驗高性能的 Qwen2.5-Omni-7B 模型。值得注意的是,由於量化技術和 CPU 卸載機制,GPTQ-Int4 變體的推理速度比原生 Qwen2.5-Omni-7B 模型略慢。
評估集 |
任務 |
指標 |
Qwen2.5-Omni-7B |
Qwen2.5-Omni-7B-GPTQ-Int4 |
LibriSpeech test-other |
自動語音識別(ASR) |
詞錯誤率(WER) ⬇️ |
3.4 |
3.71 |
WenetSpeech test-net |
自動語音識別(ASR) |
詞錯誤率(WER) ⬇️ |
5.9 |
6.62 |
Seed-TTS test-hard |
文本轉語音(TTS,說話人:Chelsie) |
詞錯誤率(WER) ⬇️ |
8.7 |
10.3 |
MMLU-Pro |
文本到文本 |
準確率 ⬆️ |
47.0 |
43.76 |
OmniBench |
語音到文本 |
準確率 ⬆️ |
56.13 |
53.59 |
VideoMME |
多模態到文本 |
準確率 ⬆️ |
72.4 |
68.0 |
模型 |
精度 |
15 秒視頻 |
30 秒視頻 |
60 秒視頻 |
Qwen-Omni-7B |
FP32 |
93.56 GB |
不推薦 |
不推薦 |
Qwen-Omni-7B |
BF16 |
31.11 GB |
41.85 GB |
60.19 GB |
Qwen-Omni-7B |
GPTQ-Int4 |
11.64 GB |
17.43 GB |
29.51 GB |
✨ 主要特性
全模態與新穎架構
我們提出了 Thinker-Talker 架構,這是一種端到端的多模態模型,旨在感知包括文本、圖像、音頻和視頻在內的多種模態信息,同時以流式方式同步生成文本和自然語音響應。此外,我們還提出了一種新穎的位置嵌入方法,名為 TMRoPE(時間對齊多模態旋轉位置編碼),用於將視頻輸入的時間戳與音頻同步。
即時語音和視頻聊天
該架構專為全即時交互而設計,支持分塊輸入和即時輸出。
自然且穩健的語音生成
在語音生成方面,該模型超越了許多現有的流式和非流式替代方案,展現出卓越的穩健性和自然度。
跨模態的強大性能
與同等規模的單模態模型相比,Qwen2.5-Omni 在所有模態上均表現出色。在音頻能力方面,Qwen2.5-Omni 優於同等規模的 Qwen2-Audio,並且在性能上與 Qwen2.5-VL-7B 相當。
出色的端到端語音指令遵循能力
Qwen2.5-Omni 在端到端語音指令遵循方面的表現與其在文本輸入時的效果相當,這在 MMLU 和 GSM8K 等基準測試中得到了驗證。
模型架構
📄 許可證
本項目採用 Apache-2.0 許可證。
📚 引用
如果你在研究中發現我們的論文和代碼很有用,請考慮給我們點個星 :star: 並引用 :pencil: 哦!
@article{Qwen2.5-Omni,
title={Qwen2.5-Omni Technical Report},
author={Jin Xu, Zhifang Guo, Jinzheng He, Hangrui Hu, Ting He, Shuai Bai, Keqin Chen, Jialin Wang, Yang Fan, Kai Dang, Bin Zhang, Xiong Wang, Yunfei Chu, Junyang Lin},
journal={arXiv preprint arXiv:2503.20215},
year={2025}
}