Qwen2.5-Omni-7B-GPTQ-Int4開源多模態模型 - 支持視聽文響應，免費部署！

首頁

Qwen2.5 Omni 7B GPTQ Int4

由Qwen開發

Qwen2.5-Omni 是一個端到端的多模態模型，能夠感知文本、圖像、音頻和視頻等多種模態，並以流式方式生成文本和自然語音響應。

多模態融合

Transformers

英語開源協議:其他 #全模態交互 #即時語音視頻 #低內存優化

下載量 389

發布時間 : 5/14/2025

模型概述

Qwen2.5-Omni 是一個專為即時交互設計的端到端多模態模型，支持文本、圖像、音頻和視頻的感知與生成。

模型特點

全模態與新穎架構

支持文本、圖像、音頻和視頻的感知與生成，採用 Thinker-Talker 架構和 TMRoPE 位置嵌入。

即時語音和視頻聊天

專為完全即時交互設計，支持分塊輸入和即時輸出。

自然且穩健的語音生成

在語音生成中表現出卓越的穩健性和自然性，超越了許多現有的流式和非流式替代方案。

跨模態的強勁性能

在所有模態上表現出卓越的性能，與類似規模的單模態模型相比具有競爭力。

端到端語音指令跟隨

在端到端語音指令跟隨方面表現出色，效果與文本輸入相當。

模型能力

文本生成

圖像分析

語音識別

語音合成

視頻分析

使用案例

即時交互

即時語音聊天

支持即時語音輸入和輸出，適用於語音助手等應用。

自然且穩健的語音生成效果。

視頻分析

支持視頻內容的即時分析和響應。

在 VideoMME 基準測試中準確率達到 72.4。

語音處理

語音識別

支持高精度的語音轉文本功能。

在 LibriSpeech test-other 數據集上 WER 為 3.4。

語音合成

支持自然語音的生成。

在 Seed-TTS test-hard 數據集上 WER 為 8.7。

🚀 Qwen2.5-Omni-7B-GPTQ-Int4

Qwen2.5-Omni-7B-GPTQ-Int4 是一個端到端的多模態模型，能夠感知文本、圖像、音頻和視頻等多種模態信息，並以流式方式生成文本和自然語音響應，有效提升了在不同硬件配置下的運行效率。

🚀 快速開始

本模型卡介紹了一系列旨在提升 Qwen2.5-Omni-7B 在 GPU 內存受限設備上可操作性的增強功能。關鍵優化點如下：

使用 GPTQ 對 Thinker 的權重進行 4 位量化，有效減少 GPU VRAM 的使用。
增強推理管道，使每個模塊按需加載模型權重，並在推理完成後將其卸載到 CPU 內存，防止 VRAM 峰值使用過高。
將 token2wav 模塊轉換為支持流式推理，避免預先分配過多的 GPU 內存。
將 ODE 求解器從二階（RK4）方法調整為一階（Euler）方法，進一步降低計算開銷。

這些改進旨在確保 Qwen2.5-Omni 在各種硬件配置下，尤其是 GPU 內存較低的設備（如 RTX3080、4080、5070 等）上高效運行。

以下是使用 gptqmodel 調用 Qwen2.5-Omni-7B-GPTQ-Int4 的簡單示例：

pip uninstall transformers
pip install git+https://github.com/huggingface/transformers@v4.51.3-Qwen2.5-Omni-preview
pip install accelerate
pip install gptqmodel==2.0.0
pip install numpy==2.0.0

git clone https://github.com/QwenLM/Qwen2.5-Omni.git

cd Qwen2.5-Omni/low-VRAM-mode/

CUDA_VISIBLE_DEVICES=0 python3 low_VRAM_demo_gptq.py

我們提供了一個工具包，可幫助你更方便地處理各種類型的音頻和視覺輸入，就像使用 API 一樣。它支持 base64、URL 以及交錯的音頻、圖像和視頻。你可以使用以下命令安裝該工具包，並確保你的系統已安裝 ffmpeg：

# 強烈建議使用 `[decord]` 功能以加快視頻加載速度。
pip install qwen-omni-utils[decord] -U

如果你不使用 Linux 系統，可能無法從 PyPI 安裝 decord。在這種情況下，你可以使用 pip install qwen-omni-utils -U，它將回退到使用 torchvision 進行視頻處理。不過，你仍然可以從源代碼安裝 decord，以便在加載視頻時使用 decord。

性能和 GPU 內存要求

以下兩個表格展示了 Qwen2.5-Omni-7B-GPTQ-Int4 和 Qwen2.5-Omni-7B 在特定評估基準上的性能比較和 GPU 內存消耗情況。數據表明，GPTQ-Int4 模型在保持相近性能的同時，將 GPU 內存需求降低了 50% 以上，使更多設備能夠運行和體驗高性能的 Qwen2.5-Omni-7B 模型。值得注意的是，由於量化技術和 CPU 卸載機制，GPTQ-Int4 變體的推理速度比原生 Qwen2.5-Omni-7B 模型略慢。

評估集	任務	指標	Qwen2.5-Omni-7B	Qwen2.5-Omni-7B-GPTQ-Int4
LibriSpeech test-other	自動語音識別（ASR）	詞錯誤率（WER） ⬇️	3.4	3.71
WenetSpeech test-net	自動語音識別（ASR）	詞錯誤率（WER） ⬇️	5.9	6.62
Seed-TTS test-hard	文本轉語音（TTS，說話人：Chelsie）	詞錯誤率（WER） ⬇️	8.7	10.3
MMLU-Pro	文本到文本	準確率 ⬆️	47.0	43.76
OmniBench	語音到文本	準確率 ⬆️	56.13	53.59
VideoMME	多模態到文本	準確率 ⬆️	72.4	68.0

模型	精度	15 秒視頻	30 秒視頻	60 秒視頻
Qwen-Omni-7B	FP32	93.56 GB	不推薦	不推薦
Qwen-Omni-7B	BF16	31.11 GB	41.85 GB	60.19 GB
Qwen-Omni-7B	GPTQ-Int4	11.64 GB	17.43 GB	29.51 GB

✨ 主要特性

全模態與新穎架構

我們提出了 Thinker-Talker 架構，這是一種端到端的多模態模型，旨在感知包括文本、圖像、音頻和視頻在內的多種模態信息，同時以流式方式同步生成文本和自然語音響應。此外，我們還提出了一種新穎的位置嵌入方法，名為 TMRoPE（時間對齊多模態旋轉位置編碼），用於將視頻輸入的時間戳與音頻同步。

即時語音和視頻聊天

該架構專為全即時交互而設計，支持分塊輸入和即時輸出。

自然且穩健的語音生成

在語音生成方面，該模型超越了許多現有的流式和非流式替代方案，展現出卓越的穩健性和自然度。

跨模態的強大性能

與同等規模的單模態模型相比，Qwen2.5-Omni 在所有模態上均表現出色。在音頻能力方面，Qwen2.5-Omni 優於同等規模的 Qwen2-Audio，並且在性能上與 Qwen2.5-VL-7B 相當。

出色的端到端語音指令遵循能力

Qwen2.5-Omni 在端到端語音指令遵循方面的表現與其在文本輸入時的效果相當，這在 MMLU 和 GSM8K 等基準測試中得到了驗證。

模型架構

📄 許可證

本項目採用 Apache-2.0 許可證。

📚 引用

如果你在研究中發現我們的論文和代碼很有用，請考慮給我們點個星 :star: 並引用 :pencil: 哦！

@article{Qwen2.5-Omni,
  title={Qwen2.5-Omni Technical Report},
  author={Jin Xu, Zhifang Guo, Jinzheng He, Hangrui Hu, Ting He, Shuai Bai, Keqin Chen, Jialin Wang, Yang Fan, Kai Dang, Bin Zhang, Xiong Wang, Yunfei Chu, Junyang Lin},
  journal={arXiv preprint arXiv:2503.20215},
  year={2025}
}