E

Emova Qwen 2 5 3b Hf

Emova-ollmによって開発
EMOVAはエンドツーエンドの全能モーダル大規模言語モデルで、視覚、聴覚、音声機能をサポートし、感情音声対話能力を備えています。
ダウンロード数 101
リリース時間 : 3/11/2025

モデル概要

EMOVAは新しいタイプのエンドツーエンド全能モーダル大規模言語モデルで、外部モデルに依存せずに視覚、聴覚、音声機能を実現します。全能モーダル(テキスト、視覚、音声)入力を受け取り、EMOVAは音声デコーダーとスタイルエンコーダーを使用して、生き生きとした感情制御付きのテキストと音声応答を生成できます。

モデル特徴

全能モーダル性能
視覚言語と音声ベンチマークテストで同時にトップクラスの結果を達成し、テキスト、視覚、音声の入出力をサポートします。
感情音声対話
意味-音響分離音声トークナイザーと軽量スタイル制御モジュールを採用し、バイリンガル(中国語と英語)音声対話と24種類の音声スタイル制御をサポートします。
多様な構成
3B/7B/72Bの3つの構成を提供し、異なる計算予算での全能モーダル使用をサポートします。

モデル能力

視覚言語理解
音声認識
感情音声生成
マルチモーダル対話
画像説明生成
ドキュメント理解
チャート理解
数学問題解答

使用事例

スマートアシスタント
感情的音声アシスタント
ユーザーの感情を理解し、対応する音声応答ができるスマートアシスタントを構築
24種類の音声スタイル制御をサポート
教育
マルチモーダル学習支援
学生がチャート、数学問題、科学概念を理解するのを支援
ScienceQA-Imgで92.7%の精度を達成
カスタマーサービス
感情的なカスタマーサービスロボット
感情的な色彩を持つカスタマーサービス対話を提供
中国語と英語のバイリンガルサービスをサポート
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase