Q

Qwen2.5 Omni 3B

Developed by Qwen
Qwen2.5-Omni是一款端到端多模态模型,能够感知文本、图像、音频和视频等多种模态信息,并以流式方式同步生成文本和自然语音响应。
Downloads 48.07k
Release Time : 4/30/2025

Model Overview

Qwen2.5-Omni是一款创新的多模态模型,采用Thinker-Talker架构设计,支持实时音视频交互和自然流畅的语音生成,在跨模态任务中表现优异。

Model Features

创新架构设计
提出Thinker-Talker架构,实现端到端多模态感知与生成。创新性地引入TMRoPE(时间对齐多模态旋转位置编码),确保视频与音频输入的时间戳同步。
实时音视频交互
支持分块输入与即时输出的全实时交互架构。
自然流畅的语音生成
在语音生成的自然度和鲁棒性上超越现有流式/非流式方案。
跨模态强劲表现
在同等规模单模态模型对比中全面领先。音频能力超越同尺寸Qwen2-Audio,视觉表现媲美Qwen2.5-VL-7B。
卓越的端到端语音指令跟随
在MMLU、GSM8K等基准测试中,语音指令跟随能力达到文本输入同等效果。

Model Capabilities

文本理解与生成
图像理解与分析
音频理解与生成
视频理解与分析
多模态融合处理
实时流式交互

Use Cases

智能助手
多模态对话系统
支持文本、语音、图像和视频的多模态交互
提供更自然流畅的人机交互体验
内容创作
多媒体内容生成
根据多模态输入生成连贯的文本和语音输出
提升内容创作的效率和质量
教育
多模态学习助手
通过语音、图像和视频等多种方式辅助学习
提供更丰富的学习体验
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase