开源emova-qwen-2-5-3b全能模态模型，支持多模态交互与情感化文本语音生成

首页

Emova Qwen 2 5 3b

由 Emova-ollm 开发

EMOVA是一种端到端全能模态大语言模型，支持视觉、听觉和语音功能，能够生成具有情感控制的文本和语音响应。

多模态融合

Transformers

支持多种语言开源协议:Apache-2.0 #情感语音对话 #多模态大模型 #双语语音生成

下载量 25

发布时间 : 4/25/2025

模型简介

EMOVA是一种新颖的端到端全能模态大语言模型，无需依赖外部模型即可实现视觉、听觉和语音功能。支持双语（中文和英文）语音对话，并提供24种语音风格控制。

模型特点

全能模态性能

在视觉语言和语音基准测试中同时达到领先的可比结果。

情感语音对话

采用语义-声学解耦的语音分词器和轻量级风格控制模块，实现无缝的全能模态对齐和多样化的语音风格可控性。

多样化配置

提供3种配置（3B/7B/72B），支持不同计算预算下的全能模态使用。

模型能力

视觉语言理解

语音识别

情感语音生成

多模态对话

结构化数据理解

使用案例

智能助手

情感语音助手

生成具有情感色彩的语音响应，提升用户体验。

支持24种语音风格控制。

教育

多模态学习助手

帮助学生理解复杂的视觉和文本内容。

在ScienceQA-图像基准测试中达到92.7%准确率。

🚀 EMOVA-Qwen-2.5-3B

EMOVA-Qwen-2.5-3B 是一款创新的端到端全模态大语言模型，无需依赖外部模型，即可实现视觉、听觉和语言交互。它能够处理文本、视觉和语音等多模态输入，并通过语音解码器和风格编码器生成带有生动情感控制的文本和语音响应。该模型具备通用的全模态理解和生成能力，在高级视觉语言理解、情感语音对话以及带有结构数据理解的语音对话方面表现出色。

✨ 主要特性

最先进的全模态性能：EMOVA在视觉语言和语音基准测试中同时取得了最先进的可比结果。表现最佳的模型 EMOVA-72B 甚至超越了包括GPT - 4o和Gemini Pro 1.5在内的商业模型。
情感语音对话：采用了语义 - 声学解耦的语音分词器和轻量级的风格控制模块，实现了无缝的全模态对齐和多样化的语音风格可控性。EMOVA支持双语（中文和英文） 语音对话，并具备24种语音风格控制（即2个说话人、3种音高和4种情感）。
多样化配置：开源了3种配置，即EMOVA - 3B/7B/72B，以支持不同计算预算下的全模态使用。您可以查看模型库，为您的计算设备找到最合适的模型！

📚 详细文档

属性	详情
库名称	transformers
标签	全模态大语言模型、多模态大语言模型、情感语音对话
许可证	Apache - 2.0
数据集	Emova - ollm/emova - alignment - 7m、Emova - ollm/emova - sft - 4m、Emova - ollm/emova - sft - speech - 231k
语言	英文、中文
基础模型	Emova - ollm/qwen2vit600m、Emova - ollm/Qwen2.5 - 3B - Instruct_add_speech_token_4096_nostrip
模型索引名称	emova - qwen - 2 - 5 - 3b - hf
新版本	Emova - ollm/emova - qwen - 2 - 5 - 3b - hf

模型评估结果

任务类型	数据集名称	指标类型	指标值	指标名称	是否验证
多模态	AI2D	准确率	78.6	准确率	是
多模态	ChartQA	准确率	81.5	准确率	是
多模态	DocVQA	准确率	93.5	准确率	是
多模态	InfoVQA	准确率	71.2	准确率	是
多模态	MathVerse	准确率	31.4	准确率	是
多模态	MathVista	准确率	62.6	准确率	是
多模态	MMBench	准确率	79.2	准确率	是
多模态	MME	得分	2175	得分	是
多模态	MMVet	准确率	57.3	准确率	是
多模态	OCRBench	准确率	803	准确率	是
多模态	RealWorldQA	准确率	62.6	准确率	是
多模态	Seed - Bench - Image	准确率	74.9	准确率	是
多模态	Science - QA	准确率	92.7	准确率	是
多模态	TextVQA	准确率	77.2	准确率	是
自动语音识别	LibriSpeech (clean)	字错率	5.4	测试字错率	无

不同模型性能对比

基准测试	EMOVA - 3B	EMOVA - 7B	EMOVA - 72B	GPT - 4o	VITA 8x7B	VITA 1.5	百川全模态
MME	2175	2317	2402	2310	2097	2311	2187
MMBench	79.2	83.0	86.4	83.4	71.8	76.6	76.2
SEED - Image	74.9	75.5	76.6	77.1	72.6	74.2	74.1
MM - Vet	57.3	59.4	64.8	-	41.6	51.1	65.4
RealWorldQA	62.6	67.5	71.0	75.4	59.0	66.8	62.6
TextVQA	77.2	78.0	81.4	-	71.8	74.9	74.3
ChartQA	81.5	84.9	88.7	85.7	76.6	79.6	79.6
DocVQA	93.5	94.2	95.9	92.8	-	-	-
InfoVQA	71.2	75.1	83.2	-	-	-	-
OCRBench	803	814	843	736	678	752	700
ScienceQA - Img	92.7	96.4	98.2	-	-	-	-
AI2D	78.6	81.7	85.8	84.6	73.1	79.3	-
MathVista	62.6	65.5	69.9	63.8	44.9	66.2	51.9
Mathverse	31.4	40.9	50.0	-	-	-	-
Librispeech (字错率↓)	5.4	4.1	2.9	-	3.4	8.1	-

💻 使用示例

本仓库包含以 EMOVA代码库 原始格式 组织的 EMOVA - Qwen2.5 - 3B 检查点，因此，它应与EMOVA代码库一起使用。其配对的配置文件可在此处获取。您可以查看此处以使用此检查点启动Web演示。

📄 许可证

本项目采用Apache - 2.0许可证。

📚 引用

@article{chen2024emova,
  title={Emova: Empowering language models to see, hear and speak with vivid emotions},
  author={Chen, Kai and Gou, Yunhao and Huang, Runhui and Liu, Zhili and Tan, Daxin and Xu, Jing and Wang, Chunwei and Zhu, Yi and Zeng, Yihan and Yang, Kuo and others},
  journal={arXiv preprint arXiv:2409.18042},
  year={2024}
}