Q

Qwen2.5 Omni 7B

由Qwen開發
Qwen2.5-Omni 是一個端到端的多模態模型,能夠感知文本、圖像、音頻和視頻等多種模態,並以流式方式生成文本和自然語音響應。
下載量 206.20k
發布時間 : 3/22/2025

模型概述

Qwen2.5-Omni 是一個多模態模型,支持文本、圖像、音頻和視頻的輸入和輸出,專為即時交互設計,具有出色的跨模態性能和自然語音生成能力。

模型特點

全模態與新穎架構
採用 Thinker-Talker 架構,支持文本、圖像、音頻和視頻的輸入和輸出,提出 TMRoPE(時間對齊的多模態 RoPE)方法同步視頻與音頻的時間戳。
即時語音和視頻聊天
專為完全即時交互設計,支持分塊輸入和即時輸出。
自然且穩健的語音生成
在語音生成方面展現出卓越的穩健性和自然度,超越許多現有的流式和非流式替代方案。
跨模態的強勁性能
在所有模態上均表現出色,性能與類似規模的單模態模型相當甚至超越。
端到端語音指令跟隨
在端到端語音指令跟隨方面的表現與文本輸入相當,驗證了其在複雜任務中的實用性。

模型能力

文本生成
圖像分析
語音識別
語音合成
視頻理解
多模態集成

使用案例

即時交互
即時語音聊天
支持流式語音輸入和即時文本或語音響應,適用於即時對話場景。
自然且穩健的語音生成效果。
視頻聊天
支持視頻輸入和即時分析,生成文本或語音響應。
同步視頻與音頻的時間戳,提升交互體驗。
多模態任務
音頻理解
支持語音識別、翻譯和音頻事件檢測等任務。
在 Common Voice、Fleurs 等數據集上表現優異。
圖像推理
支持圖像內容理解和推理任務。
在 MMMU、MMStar 等基準測試中表現出色。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase