E

Emova Qwen 2 5 7b Hf

由Emova-ollm開發
EMOVA是一種端到端全能模態大語言模型,支持視覺、聽覺和語音功能,無需依賴外部模型即可實現多模態理解和生成。
下載量 36
發布時間 : 3/11/2025

模型概述

EMOVA是一種全能模態大語言模型,能夠接收文本、視覺和語音輸入,並生成帶有情感控制的文本和語音響應。具備高級視覺語言理解、情感語音對話以及結構化數據理解的語音對話能力。

模型特點

全能模態性能
在視覺語言和語音基準測試中取得領先的可比結果,支持文本、視覺和語音輸入與輸出。
情感語音對話
採用語義-聲學解耦的語音分詞器和輕量級風格控制模塊,支持24種語音風格控制(2種說話者、3種音高和4種情感)。
多樣化配置
提供3種參數規模的模型配置(3B/7B/72B),適應不同計算預算需求。

模型能力

文本生成
圖像分析
語音識別
語音合成
情感控制
多模態對話

使用案例

智能助手
情感語音助手
作為智能助手,能夠理解和生成帶有情感的語音響應,提升用戶體驗。
支持24種語音風格控制,實現生動的語音交互。
視覺語言理解
圖像描述生成
分析圖像內容並生成詳細的文本描述。
在DocVQA數據集上達到94.2%的準確率。
語音識別與合成
語音轉文本
將語音輸入轉換為文本輸出。
在LibriSpeech (clean)測試集上WER為4.1。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase