Q

Qwen2.5 Omni 7B AWQ

Qwenによって開発
Qwen2.5-Omniはエンドツーエンドのマルチモーダルモデルで、テキスト、画像、音声、動画を含む複数のモダリティを認識し、ストリーミング方式でテキストと自然な音声応答を生成できます。
ダウンロード数 77
リリース時間 : 5/14/2025

モデル概要

Qwen2.5-Omniは全モダリティの認識と生成をサポートするマルチモーダルモデルで、テキスト、画像、音声、動画処理能力を備え、リアルタイムでテキストと音声応答を生成します。

モデル特徴

全モダリティ知覚と生成
テキスト、画像、音声、動画の複数モダリティの知覚と生成をサポート
リアルタイム音声・動画チャット
完全なリアルタイムインタラクション向けに設計され、チャンク入力と即時出力をサポート
自然音声生成
音声生成において卓越した堅牢性と自然さを発揮
クロスモーダル強力な性能
全てのモダリティで優れた性能を発揮し、音声能力は同規模モデルを凌駕
エンドツーエンド音声コマンド追従
エンドツーエンド音声コマンド追従においてテキスト入力と同等の性能を発揮

モデル能力

テキスト生成
画像分析
音声認識
音声合成
動画理解
マルチモーダルインタラクション

使用事例

インテリジェントアシスタント
マルチモーダル会話
音声、画像、テキストのマルチモーダルインタラクションをサポート
自然で流暢な会話体験を提供
コンテンツ生成
音声合成
テキストを自然な音声に変換
高品質な音声出力を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase