Q

Qwen2.5 Omni 7B

Qwenによって開発
Qwen2.5-Omniはエンドツーエンドのマルチモーダルモデルで、テキスト、画像、音声、ビデオなど様々なモダリティを認識し、ストリーミング方式でテキストや自然な音声レスポンスを生成できます。
ダウンロード数 206.20k
リリース時間 : 3/22/2025

モデル概要

Qwen2.5-Omniはマルチモーダルモデルで、テキスト、画像、音声、ビデオの入出力をサポートし、リアルタイムインタラクション向けに設計されており、優れたクロスモーダル性能と自然な音声生成能力を備えています。

モデル特徴

全モーダルと新規アーキテクチャ
Thinker-Talkerアーキテクチャを採用し、テキスト、画像、音声、ビデオの入出力をサポートし、TMRoPE(時間整合型マルチモーダルRoPE)手法を提案してビデオと音声のタイムスタンプを同期します。
リアルタイム音声・ビデオチャット
完全なリアルタイムインタラクション向けに設計され、チャンク入力と即時出力をサポートします。
自然でロバストな音声生成
音声生成において卓越したロバスト性と自然さを示し、多くの既存のストリーミング/非ストリーミング代替案を凌駕します。
クロスモーダルの強力な性能
全てのモダリティで優れた性能を発揮し、同規模のシングルモーダルモデルに匹敵あるいは超越します。
エンドツーエンド音声コマンド追従
エンドツーエンド音声コマンド追従においてテキスト入力と同等の性能を示し、複雑なタスクでの実用性を検証しました。

モデル能力

テキスト生成
画像分析
音声認識
音声合成
ビデオ理解
マルチモーダル統合

使用事例

リアルタイムインタラクション
リアルタイム音声チャット
ストリーミング音声入力と即時テキスト/音声レスポンスをサポートし、リアルタイム会話シナリオに適しています。
自然でロバストな音声生成効果。
ビデオチャット
ビデオ入力とリアルタイム分析をサポートし、テキストや音声レスポンスを生成します。
ビデオと音声のタイムスタンプを同期し、インタラクション体験を向上させます。
マルチモーダルタスク
音声理解
音声認識、翻訳、音声イベント検出などのタスクをサポートします。
Common Voice、Fleursなどのデータセットで優れた性能を示します。
画像推論
画像内容理解と推論タスクをサポートします。
MMMU、MMStarなどのベンチマークで優れた性能を示します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase