Q

Qwen2.5 Omni 7B GGUF

Mungertによって開発
Qwen2.5-Omni-7Bは強力なマルチモーダルモデルで、テキスト、画像、音声、ビデオなどの多様なモーダル情報を感知し、ストリーミング方式でテキストと自然な音声応答を生成できます。
ダウンロード数 979
リリース時間 : 6/11/2025

モデル概要

このモデルはエンドツーエンドのマルチモーダルモデルで、テキスト、画像、音声、ビデオなどの多様なモーダルを感知し、ストリーミング方式でテキストと自然な音声応答を生成することを目的としています。

モデル特徴

全モーダル感知
テキスト、画像、音声、ビデオなどの多様なモーダル情報を感知できます。
ストリーミング応答
ストリーミング方式でテキストと自然な音声応答を生成し、リアルタイムインタラクションを実現します。
新しい量子化方法
規則により重要な層の量子化精度を向上させ、低ビット量子化とMOEモデルでより優れた性能を発揮します。
リアルタイム音声とビデオチャット
アーキテクチャ設計は完全なリアルタイムインタラクションを目的としており、ブロック入力と即時出力をサポートします。
クロスモーダルの強力な性能
マルチモーダルタスクで、同規模の単一モーダルモデルや閉ソースモデルよりも優れた性能を発揮します。

モデル能力

テキスト生成
画像分析
音声認識
ビデオ理解
音声理解
音声生成
マルチモーダルタスク処理

使用事例

リアルタイムインタラクション
リアルタイム音声チャット
リアルタイム音声入力と出力をサポートし、自然な会話を実現します。
音声生成において、多くの既存のストリーミングおよび非ストリーミング代替案よりも優れています。
ビデオチャット
ビデオ入力とリアルタイム応答をサポートし、インタラクション体験を向上させます。
ビデオ理解タスクで優れた性能を発揮します。
マルチモーダルタスク
マルチモーダル質問応答
テキスト、画像、音声、ビデオ情報を組み合わせて質問に答えます。
OmniBenchなどのマルチモーダルタスクで最先端の性能を達成します。
音声翻訳
音声入力をサポートし、他の言語に翻訳します。
CoVoST2などの翻訳タスクで優れた性能を発揮します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase