Emova Qwen 2 5 7b Hf
EMOVA是一種端到端全能模態大語言模型,支持視覺、聽覺和語音功能,無需依賴外部模型即可實現多模態理解和生成。
下載量 36
發布時間 : 3/11/2025
模型概述
EMOVA是一種全能模態大語言模型,能夠接收文本、視覺和語音輸入,並生成帶有情感控制的文本和語音響應。具備高級視覺語言理解、情感語音對話以及結構化數據理解的語音對話能力。
模型特點
全能模態性能
在視覺語言和語音基準測試中取得領先的可比結果,支持文本、視覺和語音輸入與輸出。
情感語音對話
採用語義-聲學解耦的語音分詞器和輕量級風格控制模塊,支持24種語音風格控制(2種說話者、3種音高和4種情感)。
多樣化配置
提供3種參數規模的模型配置(3B/7B/72B),適應不同計算預算需求。
模型能力
文本生成
圖像分析
語音識別
語音合成
情感控制
多模態對話
使用案例
智能助手
情感語音助手
作為智能助手,能夠理解和生成帶有情感的語音響應,提升用戶體驗。
支持24種語音風格控制,實現生動的語音交互。
視覺語言理解
圖像描述生成
分析圖像內容並生成詳細的文本描述。
在DocVQA數據集上達到94.2%的準確率。
語音識別與合成
語音轉文本
將語音輸入轉換為文本輸出。
在LibriSpeech (clean)測試集上WER為4.1。
🚀 EMOVA-Qwen-2.5-7B-HF
EMOVA(情感全模態語音助手)是一種新穎的端到端全模態大語言模型,無需依賴外部模型,就能實現看、聽、說的功能。它能根據文本、視覺和語音等全模態輸入,結合語音解碼器和風格編碼器,生成帶有生動情感控制的文本和語音響應。該模型具備通用的全模態理解和生成能力,在高級視覺語言理解、情感語音對話以及帶有結構數據理解的語音對話方面表現出色。
🚀 快速開始
本倉庫包含以HuggingFace格式組織的 EMOVA-Qwen2.5-7B 檢查點,因此可以直接使用 transformers Auto API 進行加載。
from transformers import AutoModel, AutoProcessor
from PIL import Image
import torch
### 如果你想使用昇騰NPUs,請取消註釋
# import torch_npu
# from torch_npu.contrib import transfer_to_npu
# 準備模型和處理器
model = AutoModel.from_pretrained(
"Emova-ollm/emova-qwen-2-5-7b-hf",
torch_dtype=torch.bfloat16,
attn_implementation='flash_attention_2', # 或者對於昇騰NPUs使用 'sdpa'
low_cpu_mem_usage=True,
trust_remote_code=True).eval().cuda()
processor = AutoProcessor.from_pretrained("Emova-ollm/emova-qwen-2-5-7b-hf", trust_remote_code=True)
# 僅在語音對話時需要
# 注意,要使用語音輸入/輸出進行推理,**emova_speech_tokenizer** 仍然是必要的依賴項 (https://huggingface.co/Emova-ollm/emova_speech_tokenizer_hf#install)。
speeck_tokenizer = AutoModel.from_pretrained("Emova-ollm/emova_speech_tokenizer_hf", torch_dtype=torch.float32, trust_remote_code=True).eval().cuda()
processor.set_speech_tokenizer(speeck_tokenizer)
# 示例1:圖像 - 文本
inputs = dict(
text=[
{"role": "system", "content": [{"type": "text", "text": "You are a helpful assistant."}]},
{"role": "user", "content": [{"type": "image"}, {"type": "text", "text": "What's shown in this image?"}]},
{"role": "assistant", "content": [{"type": "text", "text": "This image shows a red stop sign."}]},
{"role": "user", "content": [{"type": "text", "text": "Describe the image in more details."}]},
],
images=Image.open('path/to/image')
)
# 示例2:文本 - 音頻
inputs = dict(
text=[{"role": "system", "content": [{"type": "text", "text": "You are a helpful assistant."}]}],
audios='path/to/audio'
)
# 示例3:圖像 - 文本 - 音頻
inputs = dict(
text=[{"role": "system", "content": [{"type": "text", "text": "You are a helpful assistant."}]}],
images=Image.open('path/to/image'),
audios='path/to/audio'
)
# 運行處理器
has_speech = 'audios' in inputs.keys()
inputs = processor(**inputs, return_tensors="pt")
inputs = inputs.to(model.device)
# 準備生成參數
gen_kwargs = {"max_new_tokens": 4096, "do_sample": False} # 必要時添加
speech_kwargs = {"speaker": "female", "output_wav_prefix": "output"} if has_speech else {}
# 運行生成
# 對於語音輸出,我們將返回保存的wav文件路徑 (參見 output_wav_prefix)
with torch.no_grad():
outputs = model.generate(**inputs, **gen_kwargs)
outputs = outputs[:, inputs['input_ids'].shape[1]:]
print(processor.batch_decode(outputs, skip_special_tokens=True, **speech_kwargs))
✨ 主要特性
- 先進的全模態性能:EMOVA在視覺語言和語音基準測試中同時取得了最先進的可比結果。其性能最佳的模型 EMOVA-72B 甚至超越了包括GPT - 4o和Gemini Pro 1.5在內的商業模型。
- 情感語音對話:採用了語義 - 聲學解耦的語音分詞器和輕量級的風格控制模塊,實現了無縫的全模態對齊和多樣化的語音風格可控性。EMOVA支持具有 24種語音風格控制(即2個說話人、3種音高和4種情感)的 雙語(中文和英文) 語音對話。
- 多樣化的配置:開源了3種配置,即 EMOVA - 3B/7B/72B,以支持不同計算預算下的全模態使用。你可以查看 模型庫 ,為你的計算設備找到最合適的模型!
📚 詳細文檔
模型信息
屬性 | 詳情 |
---|---|
庫名稱 | transformers |
標籤 | 全模態大語言模型、多模態大語言模型、情感語音對話 |
許可證 | apache - 2.0 |
數據集 | Emova - ollm/emova - alignment - 7m、Emova - ollm/emova - sft - 4m、Emova - ollm/emova - sft - speech - 231k |
語言 | 英文、中文 |
基礎模型 | Emova - ollm/qwen2vit600m、Emova - ollm/Qwen2.5 - 7B - Instruct_add_speech_token_4096_nostrip |
模型性能
基準測試 | EMOVA - 3B | EMOVA - 7B | EMOVA - 72B | GPT - 4o | VITA 8x7B | VITA 1.5 | 百川全模態 |
---|---|---|---|---|---|---|---|
MME | 2175 | 2317 | 2402 | 2310 | 2097 | 2311 | 2187 |
MMBench | 79.2 | 83.0 | 86.4 | 83.4 | 71.8 | 76.6 | 76.2 |
SEED - Image | 74.9 | 75.5 | 76.6 | 77.1 | 72.6 | 74.2 | 74.1 |
MM - Vet | 57.3 | 59.4 | 64.8 | - | 41.6 | 51.1 | 65.4 |
RealWorldQA | 62.6 | 67.5 | 71.0 | 75.4 | 59.0 | 66.8 | 62.6 |
TextVQA | 77.2 | 78.0 | 81.4 | - | 71.8 | 74.9 | 74.3 |
ChartQA | 81.5 | 84.9 | 88.7 | 85.7 | 76.6 | 79.6 | 79.6 |
DocVQA | 93.5 | 94.2 | 95.9 | 92.8 | - | - | - |
InfoVQA | 71.2 | 75.1 | 83.2 | - | - | - | - |
OCRBench | 803 | 814 | 843 | 736 | 678 | 752 | 700 |
ScienceQA - Img | 92.7 | 96.4 | 98.2 | - | - | - | - |
AI2D | 78.6 | 81.7 | 85.8 | 84.6 | 73.1 | 79.3 | - |
MathVista | 62.6 | 65.5 | 69.9 | 63.8 | 44.9 | 66.2 | 51.9 |
Mathverse | 31.4 | 40.9 | 50.0 | - | - | - | - |
Librispeech (WER↓) | 5.4 | 4.1 | 2.9 | - | 3.4 | 8.1 | - |
模型索引
- 名稱:emova - qwen - 2 - 5 - 7b - hf
- 結果:
- 任務類型:多模態
- 數據集:AI2D,類型:ai2d,指標:準確率81.7%
- 數據集:ChartQA,類型:chartqa,指標:準確率84.9%
- 數據集:DocVQA,類型:docvqa,指標:準確率94.2%
- 數據集:InfoVQA,類型:infovqa,指標:準確率75.1%
- 數據集:MathVerse,類型:mathverse,指標:準確率40.9%
- 數據集:MathVista,類型:mathvista,指標:準確率65.5%
- 數據集:MMBench,類型:mmbench,指標:準確率83%
- 數據集:MME,類型:mme,指標:分數2317
- 數據集:MMVet,類型:mmvet,指標:準確率59.4%
- 數據集:OCRBench,類型:ocrbench,指標:準確率814
- 數據集:RealWorldQA,類型:realworldqa,指標:準確率67.5%
- 數據集:Seed - Bench - Image,類型:seed - bench - image,指標:準確率75.5%
- 數據集:Science - QA,類型:science - qa,指標:準確率96.4%
- 數據集:TextVQA,類型:textvqa,指標:準確率78%
- 任務名稱:自動語音識別,類型:automatic - speech - recognition
- 數據集:LibriSpeech (clean),類型:librispeech_asr,配置:clean,分割:test,參數:語言為英文,指標:測試字錯率4.1%
- 任務類型:多模態
📄 許可證
本項目採用 apache - 2.0 許可證。
📖 引用
@article{chen2024emova,
title={Emova: Empowering language models to see, hear and speak with vivid emotions},
author={Chen, Kai and Gou, Yunhao and Huang, Runhui and Liu, Zhili and Tan, Daxin and Xu, Jing and Wang, Chunwei and Zhu, Yi and Zeng, Yihan and Yang, Kuo and others},
journal={arXiv preprint arXiv:2409.18042},
year={2024}
}
項目鏈接
Codebert Base
CodeBERT是一個面向編程語言與自然語言的預訓練模型,基於RoBERTa架構,支持代碼搜索和代碼生成文檔等功能。
多模態融合
C
microsoft
1.6M
248
Llama 4 Scout 17B 16E Instruct
其他
Llama 4 Scout是Meta開發的多模態AI模型,採用混合專家架構,支持12種語言的文本和圖像交互,具有17B激活參數和109B總參數。
多模態融合
Transformers 支持多種語言

L
meta-llama
817.62k
844
Unixcoder Base
Apache-2.0
UniXcoder是一個統一的多模態預訓練模型,利用代碼註釋和抽象語法樹等多模態數據預訓練代碼表示。
多模態融合
Transformers 英語

U
microsoft
347.45k
51
TITAN
TITAN是一個多模態全切片基礎模型,通過視覺自監督學習和視覺-語言對齊進行預訓練,用於病理學圖像分析。
多模態融合
Safetensors 英語
T
MahmoodLab
213.39k
37
Qwen2.5 Omni 7B
其他
Qwen2.5-Omni 是一個端到端的多模態模型,能夠感知文本、圖像、音頻和視頻等多種模態,並以流式方式生成文本和自然語音響應。
多模態融合
Transformers 英語

Q
Qwen
206.20k
1,522
Minicpm O 2 6
MiniCPM-o 2.6是一款手機端運行的GPT-4o級多模態大模型,支持視覺、語音與直播流處理
多模態融合
Transformers 其他

M
openbmb
178.38k
1,117
Llama 4 Scout 17B 16E Instruct
其他
Llama 4 Scout是Meta推出的17B參數/16專家混合的多模態AI模型,支持12種語言和圖像理解,具有行業領先性能。
多模態融合
Transformers 支持多種語言

L
chutesai
173.52k
2
Qwen2.5 Omni 3B
其他
Qwen2.5-Omni是一款端到端多模態模型,能夠感知文本、圖像、音頻和視頻等多種模態信息,並以流式方式同步生成文本和自然語音響應。
多模態融合
Transformers 英語

Q
Qwen
48.07k
219
One Align
MIT
Q-Align是一個多任務視覺評估模型,專注於圖像質量評估(IQA)、美學評估(IAA)和視頻質量評估(VQA),在ICML2024上發表。
多模態融合
Transformers

O
q-future
39.48k
25
Biomedvlp BioViL T
MIT
BioViL-T是一個專注於分析胸部X光片和放射學報告的視覺語言模型,通過時序多模態預訓練提升性能。
多模態融合
Transformers 英語

B
microsoft
26.39k
35
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98