Qwen2.5-Omni-7B-GPTQ-Int4开源多模态模型 - 支持视听文响应，免费部署！

首页

Qwen2.5 Omni 7B GPTQ Int4

由 Qwen 开发

Qwen2.5-Omni 是一个端到端的多模态模型，能够感知文本、图像、音频和视频等多种模态，并以流式方式生成文本和自然语音响应。

多模态融合

Transformers

英语开源协议:其他 #全模态交互 #实时语音视频 #低内存优化

下载量 389

发布时间 : 5/14/2025

模型简介

Qwen2.5-Omni 是一个专为实时交互设计的端到端多模态模型，支持文本、图像、音频和视频的感知与生成。

模型特点

全模态与新颖架构

支持文本、图像、音频和视频的感知与生成，采用 Thinker-Talker 架构和 TMRoPE 位置嵌入。

实时语音和视频聊天

专为完全实时交互设计，支持分块输入和即时输出。

自然且稳健的语音生成

在语音生成中表现出卓越的稳健性和自然性，超越了许多现有的流式和非流式替代方案。

跨模态的强劲性能

在所有模态上表现出卓越的性能，与类似规模的单模态模型相比具有竞争力。

端到端语音指令跟随

在端到端语音指令跟随方面表现出色，效果与文本输入相当。

模型能力

文本生成

图像分析

语音识别

语音合成

视频分析

使用案例

实时交互

实时语音聊天

支持实时语音输入和输出，适用于语音助手等应用。

自然且稳健的语音生成效果。

视频分析

支持视频内容的实时分析和响应。

在 VideoMME 基准测试中准确率达到 72.4。

语音处理

语音识别

支持高精度的语音转文本功能。

在 LibriSpeech test-other 数据集上 WER 为 3.4。

语音合成

支持自然语音的生成。

在 Seed-TTS test-hard 数据集上 WER 为 8.7。

🚀 Qwen2.5-Omni-7B-GPTQ-Int4

Qwen2.5-Omni-7B-GPTQ-Int4 是一个端到端的多模态模型，能够感知文本、图像、音频和视频等多种模态信息，并以流式方式生成文本和自然语音响应，有效提升了在不同硬件配置下的运行效率。

🚀 快速开始

本模型卡介绍了一系列旨在提升 Qwen2.5-Omni-7B 在 GPU 内存受限设备上可操作性的增强功能。关键优化点如下：

使用 GPTQ 对 Thinker 的权重进行 4 位量化，有效减少 GPU VRAM 的使用。
增强推理管道，使每个模块按需加载模型权重，并在推理完成后将其卸载到 CPU 内存，防止 VRAM 峰值使用过高。
将 token2wav 模块转换为支持流式推理，避免预先分配过多的 GPU 内存。
将 ODE 求解器从二阶（RK4）方法调整为一阶（Euler）方法，进一步降低计算开销。

这些改进旨在确保 Qwen2.5-Omni 在各种硬件配置下，尤其是 GPU 内存较低的设备（如 RTX3080、4080、5070 等）上高效运行。

以下是使用 gptqmodel 调用 Qwen2.5-Omni-7B-GPTQ-Int4 的简单示例：

pip uninstall transformers
pip install git+https://github.com/huggingface/transformers@v4.51.3-Qwen2.5-Omni-preview
pip install accelerate
pip install gptqmodel==2.0.0
pip install numpy==2.0.0

git clone https://github.com/QwenLM/Qwen2.5-Omni.git

cd Qwen2.5-Omni/low-VRAM-mode/

CUDA_VISIBLE_DEVICES=0 python3 low_VRAM_demo_gptq.py

我们提供了一个工具包，可帮助你更方便地处理各种类型的音频和视觉输入，就像使用 API 一样。它支持 base64、URL 以及交错的音频、图像和视频。你可以使用以下命令安装该工具包，并确保你的系统已安装 ffmpeg：

# 强烈建议使用 `[decord]` 功能以加快视频加载速度。
pip install qwen-omni-utils[decord] -U

如果你不使用 Linux 系统，可能无法从 PyPI 安装 decord。在这种情况下，你可以使用 pip install qwen-omni-utils -U，它将回退到使用 torchvision 进行视频处理。不过，你仍然可以从源代码安装 decord，以便在加载视频时使用 decord。

性能和 GPU 内存要求

以下两个表格展示了 Qwen2.5-Omni-7B-GPTQ-Int4 和 Qwen2.5-Omni-7B 在特定评估基准上的性能比较和 GPU 内存消耗情况。数据表明，GPTQ-Int4 模型在保持相近性能的同时，将 GPU 内存需求降低了 50% 以上，使更多设备能够运行和体验高性能的 Qwen2.5-Omni-7B 模型。值得注意的是，由于量化技术和 CPU 卸载机制，GPTQ-Int4 变体的推理速度比原生 Qwen2.5-Omni-7B 模型略慢。

评估集	任务	指标	Qwen2.5-Omni-7B	Qwen2.5-Omni-7B-GPTQ-Int4
LibriSpeech test-other	自动语音识别（ASR）	词错误率（WER） ⬇️	3.4	3.71
WenetSpeech test-net	自动语音识别（ASR）	词错误率（WER） ⬇️	5.9	6.62
Seed-TTS test-hard	文本转语音（TTS，说话人：Chelsie）	词错误率（WER） ⬇️	8.7	10.3
MMLU-Pro	文本到文本	准确率 ⬆️	47.0	43.76
OmniBench	语音到文本	准确率 ⬆️	56.13	53.59
VideoMME	多模态到文本	准确率 ⬆️	72.4	68.0

模型	精度	15 秒视频	30 秒视频	60 秒视频
Qwen-Omni-7B	FP32	93.56 GB	不推荐	不推荐
Qwen-Omni-7B	BF16	31.11 GB	41.85 GB	60.19 GB
Qwen-Omni-7B	GPTQ-Int4	11.64 GB	17.43 GB	29.51 GB

✨ 主要特性

全模态与新颖架构

我们提出了 Thinker-Talker 架构，这是一种端到端的多模态模型，旨在感知包括文本、图像、音频和视频在内的多种模态信息，同时以流式方式同步生成文本和自然语音响应。此外，我们还提出了一种新颖的位置嵌入方法，名为 TMRoPE（时间对齐多模态旋转位置编码），用于将视频输入的时间戳与音频同步。

实时语音和视频聊天

该架构专为全实时交互而设计，支持分块输入和即时输出。

自然且稳健的语音生成

在语音生成方面，该模型超越了许多现有的流式和非流式替代方案，展现出卓越的稳健性和自然度。

跨模态的强大性能

与同等规模的单模态模型相比，Qwen2.5-Omni 在所有模态上均表现出色。在音频能力方面，Qwen2.5-Omni 优于同等规模的 Qwen2-Audio，并且在性能上与 Qwen2.5-VL-7B 相当。

出色的端到端语音指令遵循能力

Qwen2.5-Omni 在端到端语音指令遵循方面的表现与其在文本输入时的效果相当，这在 MMLU 和 GSM8K 等基准测试中得到了验证。

模型架构

📄 许可证

本项目采用 Apache-2.0 许可证。

📚 引用

如果你在研究中发现我们的论文和代码很有用，请考虑给我们点个星 :star: 并引用 :pencil: 哦！

@article{Qwen2.5-Omni,
  title={Qwen2.5-Omni Technical Report},
  author={Jin Xu, Zhifang Guo, Jinzheng He, Hangrui Hu, Ting He, Shuai Bai, Keqin Chen, Jialin Wang, Yang Fan, Kai Dang, Bin Zhang, Xiong Wang, Yunfei Chu, Junyang Lin},
  journal={arXiv preprint arXiv:2503.20215},
  year={2025}
}