Q

Qwen2.5 Omni 7B GPTQ Int4

Qwenによって開発
Qwen2.5-Omniはエンドツーエンドのマルチモーダルモデルで、テキスト、画像、音声、ビデオなど様々なモダリティを認識し、ストリーミング方式でテキストと自然音声応答を生成できます。
ダウンロード数 389
リリース時間 : 5/14/2025

モデル概要

Qwen2.5-Omniはリアルタイムインタラクション向けに設計されたエンドツーエンドのマルチモーダルモデルで、テキスト、画像、音声、ビデオの認識と生成をサポートします。

モデル特徴

全モーダルと新規アーキテクチャ
テキスト、画像、音声、ビデオの認識と生成をサポートし、Thinker-TalkerアーキテクチャとTMRoPE位置埋め込みを採用。
リアルタイム音声・ビデオチャット
完全なリアルタイムインタラクション向けに設計され、チャンク入力と即時出力をサポート。
自然でロバストな音声生成
音声生成において卓越したロバスト性と自然性を示し、多くの既存のストリーミング/非ストリーミング代替案を凌駕。
クロスモーダルの強力な性能
全てのモダリティで卓越した性能を示し、同規模のシングルモーダルモデルと競合。
エンドツーエンド音声コマンド追従
エンドツーエンド音声コマンド追従で優れた性能を発揮し、テキスト入力と同等の効果。

モデル能力

テキスト生成
画像分析
音声認識
音声合成
ビデオ分析

使用事例

リアルタイムインタラクション
リアルタイム音声チャット
リアルタイム音声入力・出力をサポートし、音声アシスタントなどのアプリケーションに適しています。
自然でロバストな音声生成効果。
ビデオ分析
ビデオコンテンツのリアルタイム分析と応答をサポート。
VideoMMEベンチマークテストで72.4%の精度。
音声処理
音声認識
高精度な音声テキスト変換機能をサポート。
LibriSpeech test-otherデータセットでWER3.4。
音声合成
自然音声の生成をサポート。
Seed-TTS test-hardデータセットでWER8.7。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase