Q

Qwen2.5 Omni 3B

Qwenによって開発
Qwen2.5-Omniはエンドツーエンドのマルチモーダルモデルで、テキスト、画像、音声、ビデオなど様々なモダリティ情報を認識し、ストリーミング方式でテキストと自然な音声応答を同期生成できます。
ダウンロード数 48.07k
リリース時間 : 4/30/2025

モデル概要

Qwen2.5-Omniは革新的なマルチモーダルモデルで、Thinker-Talkerアーキテクチャを採用し、リアルタイム音声ビデオインタラクションと自然な音声生成をサポートし、クロスモーダルタスクで優れた性能を発揮します。

モデル特徴

革新的なアーキテクチャ設計
Thinker-Talkerアーキテクチャを提案し、エンドツーエンドマルチモーダル認識と生成を実現。革新的にTMRoPE(時間整合マルチモーダル回転位置符号化)を導入し、ビデオと音声入力のタイムスタンプ同期を確保。
リアルタイム音声ビデオインタラクション
チャンク入力と即時出力をサポートする完全リアルタイムインタラクションアーキテクチャ。
自然で滑らかな音声生成
音声生成の自然さとロバスト性において、既存のストリーミング/非ストリーミングソリューションを凌駕。
クロスモーダルの強力な性能
同等規模のシングルモーダルモデルと比較して全面的にリード。音声能力は同サイズのQwen2-Audioを超え、視覚性能はQwen2.5-VL-7Bに匹敵。
卓越したエンドツーエンド音声コマンドフォロー
MMLU、GSM8Kなどのベンチマークテストにおいて、音声コマンドフォロー能力がテキスト入力と同等の効果を達成。

モデル能力

テキスト理解と生成
画像理解と分析
音声理解と生成
ビデオ理解と分析
マルチモーダル融合処理
リアルタイムストリーミングインタラクション

使用事例

インテリジェントアシスタント
マルチモーダルダイアログシステム
テキスト、音声、画像、ビデオのマルチモーダルインタラクションをサポート
より自然で滑らかな人間と機械のインタラクション体験を提供
コンテンツクリエーション
マルチメディアコンテンツ生成
マルチモーダル入力に基づいて一貫性のあるテキストと音声出力を生成
コンテンツクリエーションの効率と品質を向上
教育
マルチモーダル学習アシスタント
音声、画像、ビデオなど様々な方法で学習を支援
より豊かな学習体験を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase