E

Emova Qwen 2 5 3b

Emova-ollmによって開発
EMOVAはエンドツーエンドの全モーダル対応大規模言語モデルで、視覚、聴覚、音声機能をサポートし、感情制御可能なテキストと音声応答を生成できます。
ダウンロード数 25
リリース時間 : 4/25/2025

モデル概要

EMOVAは革新的なエンドツーエンド全モーダル大規模言語モデルで、外部モデルに依存せずに視覚、聴覚、音声機能を実現します。バイリンガル(中国語と英語)音声対話をサポートし、24種類の音声スタイル制御を提供します。

モデル特徴

全モーダル性能
視覚言語と音声ベンチマークテストで同時にリーダー級の比較結果を達成。
感情音声対話
意味-音響分離音声トークナイザーと軽量スタイル制御モジュールを採用し、シームレスな全モーダルアラインメントと多様な音声スタイル制御性を実現。
多様な構成
3種類の構成(3B/7B/72B)を提供し、異なる計算予算下での全モーダル使用をサポート。

モデル能力

視覚言語理解
音声認識
感情音声生成
マルチモーダル対話
構造化データ理解

使用事例

スマートアシスタント
感情音声アシスタント
感情豊かな音声応答を生成し、ユーザー体験を向上。
24種類の音声スタイル制御をサポート。
教育
マルチモーダル学習アシスタント
学生が複雑な視覚とテキスト内容を理解するのを支援。
ScienceQA-画像ベンチマークテストで92.7%の精度を達成。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase