E

Emova Qwen 2 5 7b Hf

Emova-ollmによって開発
EMOVAはエンドツーエンドの全モーダル対応大規模言語モデルで、外部モデルに依存せずに視覚、聴覚、音声機能をサポートし、マルチモーダル理解と生成を実現します。
ダウンロード数 36
リリース時間 : 3/11/2025

モデル概要

EMOVAは全モーダル対応の大規模言語モデルで、テキスト、視覚、音声入力を処理し、感情制御付きのテキストと音声応答を生成できます。高度な視覚言語理解、感情音声対話、構造化データ理解を備えた音声対話能力を持っています。

モデル特徴

全モーダル性能
視覚言語と音声ベンチマークでリーダー級の結果を達成し、テキスト、視覚、音声の入出力をサポートします。
感情音声対話
意味-音響分離音声トークナイザーと軽量スタイル制御モジュールを採用し、24種類の音声スタイル制御(2話者、3音高、4感情)をサポートします。
多様な構成
3種類のパラメータ規模(3B/7B/72B)のモデル構成を提供し、異なる計算予算ニーズに対応します。

モデル能力

テキスト生成
画像分析
音声認識
音声合成
感情制御
マルチモーダル対話

使用事例

スマートアシスタント
感情音声アシスタント
スマートアシスタントとして、感情付きの音声応答を理解・生成でき、ユーザー体験を向上させます。
24種類の音声スタイル制御をサポートし、生き生きとした音声インタラクションを実現します。
視覚言語理解
画像キャプション生成
画像内容を分析し、詳細なテキスト説明を生成します。
DocVQAデータセットで94.2%の精度を達成しました。
音声認識と合成
音声テキスト変換
音声入力をテキスト出力に変換します。
LibriSpeech (clean)テストセットでWER 4.1を達成しました。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase