E

Emova Qwen 2 5 3b

由Emova-ollm開發
EMOVA是一種端到端全能模態大語言模型,支持視覺、聽覺和語音功能,能夠生成具有情感控制的文本和語音響應。
下載量 25
發布時間 : 4/25/2025

模型概述

EMOVA是一種新穎的端到端全能模態大語言模型,無需依賴外部模型即可實現視覺、聽覺和語音功能。支持雙語(中文和英文)語音對話,並提供24種語音風格控制。

模型特點

全能模態性能
在視覺語言和語音基準測試中同時達到領先的可比結果。
情感語音對話
採用語義-聲學解耦的語音分詞器和輕量級風格控制模塊,實現無縫的全能模態對齊和多樣化的語音風格可控性。
多樣化配置
提供3種配置(3B/7B/72B),支持不同計算預算下的全能模態使用。

模型能力

視覺語言理解
語音識別
情感語音生成
多模態對話
結構化數據理解

使用案例

智能助手
情感語音助手
生成具有情感色彩的語音響應,提升用戶體驗。
支持24種語音風格控制。
教育
多模態學習助手
幫助學生理解複雜的視覺和文本內容。
在ScienceQA-圖像基準測試中達到92.7%準確率。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase