Q

Qwen2.5 Omni 7B GPTQ Int4

由Qwen開發
Qwen2.5-Omni 是一個端到端的多模態模型,能夠感知文本、圖像、音頻和視頻等多種模態,並以流式方式生成文本和自然語音響應。
下載量 389
發布時間 : 5/14/2025

模型概述

Qwen2.5-Omni 是一個專為即時交互設計的端到端多模態模型,支持文本、圖像、音頻和視頻的感知與生成。

模型特點

全模態與新穎架構
支持文本、圖像、音頻和視頻的感知與生成,採用 Thinker-Talker 架構和 TMRoPE 位置嵌入。
即時語音和視頻聊天
專為完全即時交互設計,支持分塊輸入和即時輸出。
自然且穩健的語音生成
在語音生成中表現出卓越的穩健性和自然性,超越了許多現有的流式和非流式替代方案。
跨模態的強勁性能
在所有模態上表現出卓越的性能,與類似規模的單模態模型相比具有競爭力。
端到端語音指令跟隨
在端到端語音指令跟隨方面表現出色,效果與文本輸入相當。

模型能力

文本生成
圖像分析
語音識別
語音合成
視頻分析

使用案例

即時交互
即時語音聊天
支持即時語音輸入和輸出,適用於語音助手等應用。
自然且穩健的語音生成效果。
視頻分析
支持視頻內容的即時分析和響應。
在 VideoMME 基準測試中準確率達到 72.4。
語音處理
語音識別
支持高精度的語音轉文本功能。
在 LibriSpeech test-other 數據集上 WER 為 3.4。
語音合成
支持自然語音的生成。
在 Seed-TTS test-hard 數據集上 WER 為 8.7。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase