Emova Qwen 2 5 7b Hf
EMOVA是一种端到端全能模态大语言模型,支持视觉、听觉和语音功能,无需依赖外部模型即可实现多模态理解和生成。
下载量 36
发布时间 : 3/11/2025
模型简介
EMOVA是一种全能模态大语言模型,能够接收文本、视觉和语音输入,并生成带有情感控制的文本和语音响应。具备高级视觉语言理解、情感语音对话以及结构化数据理解的语音对话能力。
模型特点
全能模态性能
在视觉语言和语音基准测试中取得领先的可比结果,支持文本、视觉和语音输入与输出。
情感语音对话
采用语义-声学解耦的语音分词器和轻量级风格控制模块,支持24种语音风格控制(2种说话者、3种音高和4种情感)。
多样化配置
提供3种参数规模的模型配置(3B/7B/72B),适应不同计算预算需求。
模型能力
文本生成
图像分析
语音识别
语音合成
情感控制
多模态对话
使用案例
智能助手
情感语音助手
作为智能助手,能够理解和生成带有情感的语音响应,提升用户体验。
支持24种语音风格控制,实现生动的语音交互。
视觉语言理解
图像描述生成
分析图像内容并生成详细的文本描述。
在DocVQA数据集上达到94.2%的准确率。
语音识别与合成
语音转文本
将语音输入转换为文本输出。
在LibriSpeech (clean)测试集上WER为4.1。
🚀 EMOVA-Qwen-2.5-7B-HF
EMOVA(情感全模态语音助手)是一种新颖的端到端全模态大语言模型,无需依赖外部模型,就能实现看、听、说的功能。它能根据文本、视觉和语音等全模态输入,结合语音解码器和风格编码器,生成带有生动情感控制的文本和语音响应。该模型具备通用的全模态理解和生成能力,在高级视觉语言理解、情感语音对话以及带有结构数据理解的语音对话方面表现出色。
🚀 快速开始
本仓库包含以HuggingFace格式组织的 EMOVA-Qwen2.5-7B 检查点,因此可以直接使用 transformers Auto API 进行加载。
from transformers import AutoModel, AutoProcessor
from PIL import Image
import torch
### 如果你想使用昇腾NPUs,请取消注释
# import torch_npu
# from torch_npu.contrib import transfer_to_npu
# 准备模型和处理器
model = AutoModel.from_pretrained(
"Emova-ollm/emova-qwen-2-5-7b-hf",
torch_dtype=torch.bfloat16,
attn_implementation='flash_attention_2', # 或者对于昇腾NPUs使用 'sdpa'
low_cpu_mem_usage=True,
trust_remote_code=True).eval().cuda()
processor = AutoProcessor.from_pretrained("Emova-ollm/emova-qwen-2-5-7b-hf", trust_remote_code=True)
# 仅在语音对话时需要
# 注意,要使用语音输入/输出进行推理,**emova_speech_tokenizer** 仍然是必要的依赖项 (https://huggingface.co/Emova-ollm/emova_speech_tokenizer_hf#install)。
speeck_tokenizer = AutoModel.from_pretrained("Emova-ollm/emova_speech_tokenizer_hf", torch_dtype=torch.float32, trust_remote_code=True).eval().cuda()
processor.set_speech_tokenizer(speeck_tokenizer)
# 示例1:图像 - 文本
inputs = dict(
text=[
{"role": "system", "content": [{"type": "text", "text": "You are a helpful assistant."}]},
{"role": "user", "content": [{"type": "image"}, {"type": "text", "text": "What's shown in this image?"}]},
{"role": "assistant", "content": [{"type": "text", "text": "This image shows a red stop sign."}]},
{"role": "user", "content": [{"type": "text", "text": "Describe the image in more details."}]},
],
images=Image.open('path/to/image')
)
# 示例2:文本 - 音频
inputs = dict(
text=[{"role": "system", "content": [{"type": "text", "text": "You are a helpful assistant."}]}],
audios='path/to/audio'
)
# 示例3:图像 - 文本 - 音频
inputs = dict(
text=[{"role": "system", "content": [{"type": "text", "text": "You are a helpful assistant."}]}],
images=Image.open('path/to/image'),
audios='path/to/audio'
)
# 运行处理器
has_speech = 'audios' in inputs.keys()
inputs = processor(**inputs, return_tensors="pt")
inputs = inputs.to(model.device)
# 准备生成参数
gen_kwargs = {"max_new_tokens": 4096, "do_sample": False} # 必要时添加
speech_kwargs = {"speaker": "female", "output_wav_prefix": "output"} if has_speech else {}
# 运行生成
# 对于语音输出,我们将返回保存的wav文件路径 (参见 output_wav_prefix)
with torch.no_grad():
outputs = model.generate(**inputs, **gen_kwargs)
outputs = outputs[:, inputs['input_ids'].shape[1]:]
print(processor.batch_decode(outputs, skip_special_tokens=True, **speech_kwargs))
✨ 主要特性
- 先进的全模态性能:EMOVA在视觉语言和语音基准测试中同时取得了最先进的可比结果。其性能最佳的模型 EMOVA-72B 甚至超越了包括GPT - 4o和Gemini Pro 1.5在内的商业模型。
- 情感语音对话:采用了语义 - 声学解耦的语音分词器和轻量级的风格控制模块,实现了无缝的全模态对齐和多样化的语音风格可控性。EMOVA支持具有 24种语音风格控制(即2个说话人、3种音高和4种情感)的 双语(中文和英文) 语音对话。
- 多样化的配置:开源了3种配置,即 EMOVA - 3B/7B/72B,以支持不同计算预算下的全模态使用。你可以查看 模型库 ,为你的计算设备找到最合适的模型!
📚 详细文档
模型信息
属性 | 详情 |
---|---|
库名称 | transformers |
标签 | 全模态大语言模型、多模态大语言模型、情感语音对话 |
许可证 | apache - 2.0 |
数据集 | Emova - ollm/emova - alignment - 7m、Emova - ollm/emova - sft - 4m、Emova - ollm/emova - sft - speech - 231k |
语言 | 英文、中文 |
基础模型 | Emova - ollm/qwen2vit600m、Emova - ollm/Qwen2.5 - 7B - Instruct_add_speech_token_4096_nostrip |
模型性能
基准测试 | EMOVA - 3B | EMOVA - 7B | EMOVA - 72B | GPT - 4o | VITA 8x7B | VITA 1.5 | 百川全模态 |
---|---|---|---|---|---|---|---|
MME | 2175 | 2317 | 2402 | 2310 | 2097 | 2311 | 2187 |
MMBench | 79.2 | 83.0 | 86.4 | 83.4 | 71.8 | 76.6 | 76.2 |
SEED - Image | 74.9 | 75.5 | 76.6 | 77.1 | 72.6 | 74.2 | 74.1 |
MM - Vet | 57.3 | 59.4 | 64.8 | - | 41.6 | 51.1 | 65.4 |
RealWorldQA | 62.6 | 67.5 | 71.0 | 75.4 | 59.0 | 66.8 | 62.6 |
TextVQA | 77.2 | 78.0 | 81.4 | - | 71.8 | 74.9 | 74.3 |
ChartQA | 81.5 | 84.9 | 88.7 | 85.7 | 76.6 | 79.6 | 79.6 |
DocVQA | 93.5 | 94.2 | 95.9 | 92.8 | - | - | - |
InfoVQA | 71.2 | 75.1 | 83.2 | - | - | - | - |
OCRBench | 803 | 814 | 843 | 736 | 678 | 752 | 700 |
ScienceQA - Img | 92.7 | 96.4 | 98.2 | - | - | - | - |
AI2D | 78.6 | 81.7 | 85.8 | 84.6 | 73.1 | 79.3 | - |
MathVista | 62.6 | 65.5 | 69.9 | 63.8 | 44.9 | 66.2 | 51.9 |
Mathverse | 31.4 | 40.9 | 50.0 | - | - | - | - |
Librispeech (WER↓) | 5.4 | 4.1 | 2.9 | - | 3.4 | 8.1 | - |
模型索引
- 名称:emova - qwen - 2 - 5 - 7b - hf
- 结果:
- 任务类型:多模态
- 数据集:AI2D,类型:ai2d,指标:准确率81.7%
- 数据集:ChartQA,类型:chartqa,指标:准确率84.9%
- 数据集:DocVQA,类型:docvqa,指标:准确率94.2%
- 数据集:InfoVQA,类型:infovqa,指标:准确率75.1%
- 数据集:MathVerse,类型:mathverse,指标:准确率40.9%
- 数据集:MathVista,类型:mathvista,指标:准确率65.5%
- 数据集:MMBench,类型:mmbench,指标:准确率83%
- 数据集:MME,类型:mme,指标:分数2317
- 数据集:MMVet,类型:mmvet,指标:准确率59.4%
- 数据集:OCRBench,类型:ocrbench,指标:准确率814
- 数据集:RealWorldQA,类型:realworldqa,指标:准确率67.5%
- 数据集:Seed - Bench - Image,类型:seed - bench - image,指标:准确率75.5%
- 数据集:Science - QA,类型:science - qa,指标:准确率96.4%
- 数据集:TextVQA,类型:textvqa,指标:准确率78%
- 任务名称:自动语音识别,类型:automatic - speech - recognition
- 数据集:LibriSpeech (clean),类型:librispeech_asr,配置:clean,分割:test,参数:语言为英文,指标:测试字错率4.1%
- 任务类型:多模态
📄 许可证
本项目采用 apache - 2.0 许可证。
📖 引用
@article{chen2024emova,
title={Emova: Empowering language models to see, hear and speak with vivid emotions},
author={Chen, Kai and Gou, Yunhao and Huang, Runhui and Liu, Zhili and Tan, Daxin and Xu, Jing and Wang, Chunwei and Zhu, Yi and Zeng, Yihan and Yang, Kuo and others},
journal={arXiv preprint arXiv:2409.18042},
year={2024}
}
项目链接
Codebert Base
CodeBERT是一个面向编程语言与自然语言的预训练模型,基于RoBERTa架构,支持代码搜索和代码生成文档等功能。
多模态融合
C
microsoft
1.6M
248
Llama 4 Scout 17B 16E Instruct
其他
Llama 4 Scout是Meta开发的多模态AI模型,采用混合专家架构,支持12种语言的文本和图像交互,具有17B激活参数和109B总参数。
多模态融合
Transformers 支持多种语言

L
meta-llama
817.62k
844
Unixcoder Base
Apache-2.0
UniXcoder是一个统一的多模态预训练模型,利用代码注释和抽象语法树等多模态数据预训练代码表示。
多模态融合
Transformers 英语

U
microsoft
347.45k
51
TITAN
TITAN是一个多模态全切片基础模型,通过视觉自监督学习和视觉-语言对齐进行预训练,用于病理学图像分析。
多模态融合
Safetensors 英语
T
MahmoodLab
213.39k
37
Qwen2.5 Omni 7B
其他
Qwen2.5-Omni 是一个端到端的多模态模型,能够感知文本、图像、音频和视频等多种模态,并以流式方式生成文本和自然语音响应。
多模态融合
Transformers 英语

Q
Qwen
206.20k
1,522
Minicpm O 2 6
MiniCPM-o 2.6是一款手机端运行的GPT-4o级多模态大模型,支持视觉、语音与直播流处理
多模态融合
Transformers 其他

M
openbmb
178.38k
1,117
Llama 4 Scout 17B 16E Instruct
其他
Llama 4 Scout是Meta推出的17B参数/16专家混合的多模态AI模型,支持12种语言和图像理解,具有行业领先性能。
多模态融合
Transformers 支持多种语言

L
chutesai
173.52k
2
Qwen2.5 Omni 3B
其他
Qwen2.5-Omni是一款端到端多模态模型,能够感知文本、图像、音频和视频等多种模态信息,并以流式方式同步生成文本和自然语音响应。
多模态融合
Transformers 英语

Q
Qwen
48.07k
219
One Align
MIT
Q-Align是一个多任务视觉评估模型,专注于图像质量评估(IQA)、美学评估(IAA)和视频质量评估(VQA),在ICML2024上发表。
多模态融合
Transformers

O
q-future
39.48k
25
Biomedvlp BioViL T
MIT
BioViL-T是一个专注于分析胸部X光片和放射学报告的视觉语言模型,通过时序多模态预训练提升性能。
多模态融合
Transformers 英语

B
microsoft
26.39k
35
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98