Q

Qwen2.5 Omni 3B

由Qwen開發
Qwen2.5-Omni是一款端到端多模態模型,能夠感知文本、圖像、音頻和視頻等多種模態信息,並以流式方式同步生成文本和自然語音響應。
下載量 48.07k
發布時間 : 4/30/2025

模型概述

Qwen2.5-Omni是一款創新的多模態模型,採用Thinker-Talker架構設計,支持即時音視頻交互和自然流暢的語音生成,在跨模態任務中表現優異。

模型特點

創新架構設計
提出Thinker-Talker架構,實現端到端多模態感知與生成。創新性地引入TMRoPE(時間對齊多模態旋轉位置編碼),確保視頻與音頻輸入的時間戳同步。
即時音視頻交互
支持分塊輸入與即時輸出的全即時交互架構。
自然流暢的語音生成
在語音生成的自然度和魯棒性上超越現有流式/非流式方案。
跨模態強勁表現
在同等規模單模態模型對比中全面領先。音頻能力超越同尺寸Qwen2-Audio,視覺表現媲美Qwen2.5-VL-7B。
卓越的端到端語音指令跟隨
在MMLU、GSM8K等基準測試中,語音指令跟隨能力達到文本輸入同等效果。

模型能力

文本理解與生成
圖像理解與分析
音頻理解與生成
視頻理解與分析
多模態融合處理
即時流式交互

使用案例

智能助手
多模態對話系統
支持文本、語音、圖像和視頻的多模態交互
提供更自然流暢的人機交互體驗
內容創作
多媒體內容生成
根據多模態輸入生成連貫的文本和語音輸出
提升內容創作的效率和質量
教育
多模態學習助手
通過語音、圖像和視頻等多種方式輔助學習
提供更豐富的學習體驗
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase