E

Emova Qwen 2 5 3b Hf

由Emova-ollm開發
EMOVA是一種端到端全能模態大語言模型,支持視覺、聽覺和語音功能,具備情感語音對話能力。
下載量 101
發布時間 : 3/11/2025

模型概述

EMOVA是一種新穎的端到端全能模態大語言模型,無需依賴外部模型即可實現視覺、聽覺和語音功能。通過接收全能模態(即文本、視覺和語音)輸入,EMOVA能夠利用語音解碼器和風格編碼器生成帶有生動情感控制的文本和語音響應。

模型特點

全能模態性能
在視覺語言和語音基準測試中同時達到頂尖可比結果,支持文本、視覺和語音輸入輸出。
情感語音對話
採用語義-聲學解耦的語音分詞器和輕量級風格控制模塊,支持雙語(中文和英文)語音對話和24種語音風格控制。
多樣化配置
提供3B/7B/72B三種配置,支持不同計算預算下的全能模態使用。

模型能力

視覺語言理解
語音識別
情感語音生成
多模態對話
圖像描述生成
文檔理解
圖表理解
數學問題解答

使用案例

智能助手
情感化語音助手
構建能夠理解用戶情感並做出相應語音回應的智能助手
支持24種語音風格控制
教育
多模態學習輔助
幫助學生理解圖表、數學問題和科學概念
在ScienceQA-Img上達到92.7%準確率
客戶服務
情感化客服機器人
提供帶有情感色彩的客戶服務對話
支持中文和英文雙語服務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase