開源emova-qwen-2-5-3b全能模態模型，支持多模態交互與情感化文本語音生成

首頁

Emova Qwen 2 5 3b

由Emova-ollm開發

EMOVA是一種端到端全能模態大語言模型，支持視覺、聽覺和語音功能，能夠生成具有情感控制的文本和語音響應。

多模態融合

Transformers

支持多種語言開源協議:Apache-2.0 #情感語音對話 #多模態大模型 #雙語語音生成

下載量 25

發布時間 : 4/25/2025

模型概述

EMOVA是一種新穎的端到端全能模態大語言模型，無需依賴外部模型即可實現視覺、聽覺和語音功能。支持雙語（中文和英文）語音對話，並提供24種語音風格控制。

模型特點

全能模態性能

在視覺語言和語音基準測試中同時達到領先的可比結果。

情感語音對話

採用語義-聲學解耦的語音分詞器和輕量級風格控制模塊，實現無縫的全能模態對齊和多樣化的語音風格可控性。

多樣化配置

提供3種配置（3B/7B/72B），支持不同計算預算下的全能模態使用。

模型能力

視覺語言理解

語音識別

情感語音生成

多模態對話

結構化數據理解

使用案例

智能助手

情感語音助手

生成具有情感色彩的語音響應，提升用戶體驗。

支持24種語音風格控制。

教育

多模態學習助手

幫助學生理解複雜的視覺和文本內容。

在ScienceQA-圖像基準測試中達到92.7%準確率。

🚀 EMOVA-Qwen-2.5-3B

EMOVA-Qwen-2.5-3B 是一款創新的端到端全模態大語言模型，無需依賴外部模型，即可實現視覺、聽覺和語言交互。它能夠處理文本、視覺和語音等多模態輸入，並通過語音解碼器和風格編碼器生成帶有生動情感控制的文本和語音響應。該模型具備通用的全模態理解和生成能力，在高級視覺語言理解、情感語音對話以及帶有結構數據理解的語音對話方面表現出色。

✨ 主要特性

最先進的全模態性能：EMOVA在視覺語言和語音基準測試中同時取得了最先進的可比結果。表現最佳的模型 EMOVA-72B 甚至超越了包括GPT - 4o和Gemini Pro 1.5在內的商業模型。
情感語音對話：採用了語義 - 聲學解耦的語音分詞器和輕量級的風格控制模塊，實現了無縫的全模態對齊和多樣化的語音風格可控性。EMOVA支持雙語（中文和英文） 語音對話，並具備24種語音風格控制（即2個說話人、3種音高和4種情感）。
多樣化配置：開源了3種配置，即EMOVA - 3B/7B/72B，以支持不同計算預算下的全模態使用。您可以查看模型庫，為您的計算設備找到最合適的模型！

📚 詳細文檔

屬性	詳情
庫名稱	transformers
標籤	全模態大語言模型、多模態大語言模型、情感語音對話
許可證	Apache - 2.0
數據集	Emova - ollm/emova - alignment - 7m、Emova - ollm/emova - sft - 4m、Emova - ollm/emova - sft - speech - 231k
語言	英文、中文
基礎模型	Emova - ollm/qwen2vit600m、Emova - ollm/Qwen2.5 - 3B - Instruct_add_speech_token_4096_nostrip
模型索引名稱	emova - qwen - 2 - 5 - 3b - hf
新版本	Emova - ollm/emova - qwen - 2 - 5 - 3b - hf

模型評估結果

任務類型	數據集名稱	指標類型	指標值	指標名稱	是否驗證
多模態	AI2D	準確率	78.6	準確率	是
多模態	ChartQA	準確率	81.5	準確率	是
多模態	DocVQA	準確率	93.5	準確率	是
多模態	InfoVQA	準確率	71.2	準確率	是
多模態	MathVerse	準確率	31.4	準確率	是
多模態	MathVista	準確率	62.6	準確率	是
多模態	MMBench	準確率	79.2	準確率	是
多模態	MME	得分	2175	得分	是
多模態	MMVet	準確率	57.3	準確率	是
多模態	OCRBench	準確率	803	準確率	是
多模態	RealWorldQA	準確率	62.6	準確率	是
多模態	Seed - Bench - Image	準確率	74.9	準確率	是
多模態	Science - QA	準確率	92.7	準確率	是
多模態	TextVQA	準確率	77.2	準確率	是
自動語音識別	LibriSpeech (clean)	字錯率	5.4	測試字錯率	無

不同模型性能對比

基準測試	EMOVA - 3B	EMOVA - 7B	EMOVA - 72B	GPT - 4o	VITA 8x7B	VITA 1.5	百川全模態
MME	2175	2317	2402	2310	2097	2311	2187
MMBench	79.2	83.0	86.4	83.4	71.8	76.6	76.2
SEED - Image	74.9	75.5	76.6	77.1	72.6	74.2	74.1
MM - Vet	57.3	59.4	64.8	-	41.6	51.1	65.4
RealWorldQA	62.6	67.5	71.0	75.4	59.0	66.8	62.6
TextVQA	77.2	78.0	81.4	-	71.8	74.9	74.3
ChartQA	81.5	84.9	88.7	85.7	76.6	79.6	79.6
DocVQA	93.5	94.2	95.9	92.8	-	-	-
InfoVQA	71.2	75.1	83.2	-	-	-	-
OCRBench	803	814	843	736	678	752	700
ScienceQA - Img	92.7	96.4	98.2	-	-	-	-
AI2D	78.6	81.7	85.8	84.6	73.1	79.3	-
MathVista	62.6	65.5	69.9	63.8	44.9	66.2	51.9
Mathverse	31.4	40.9	50.0	-	-	-	-
Librispeech (字錯率↓)	5.4	4.1	2.9	-	3.4	8.1	-

💻 使用示例

本倉庫包含以 EMOVA代碼庫 原始格式 組織的 EMOVA - Qwen2.5 - 3B 檢查點，因此，它應與EMOVA代碼庫一起使用。其配對的配置文件可在此處獲取。您可以查看此處以使用此檢查點啟動Web演示。

📄 許可證

本項目採用Apache - 2.0許可證。

📚 引用

@article{chen2024emova,
  title={Emova: Empowering language models to see, hear and speak with vivid emotions},
  author={Chen, Kai and Gou, Yunhao and Huang, Runhui and Liu, Zhili and Tan, Daxin and Xu, Jing and Wang, Chunwei and Zhu, Yi and Zeng, Yihan and Yang, Kuo and others},
  journal={arXiv preprint arXiv:2409.18042},
  year={2024}
}