🚀 EMOVA-Qwen-2.5-3B
EMOVA-Qwen-2.5-3B 是一款創新的端到端全模態大語言模型,無需依賴外部模型,即可實現視覺、聽覺和語言交互。它能夠處理文本、視覺和語音等多模態輸入,並通過語音解碼器和風格編碼器生成帶有生動情感控制的文本和語音響應。該模型具備通用的全模態理解和生成能力,在高級視覺語言理解、情感語音對話以及帶有結構數據理解的語音對話方面表現出色。
✨ 主要特性
- 最先進的全模態性能:EMOVA在視覺語言和語音基準測試中同時取得了最先進的可比結果。表現最佳的模型 EMOVA-72B 甚至超越了包括GPT - 4o和Gemini Pro 1.5在內的商業模型。
- 情感語音對話:採用了語義 - 聲學解耦的語音分詞器和輕量級的風格控制模塊,實現了無縫的全模態對齊和多樣化的語音風格可控性。EMOVA支持雙語(中文和英文) 語音對話,並具備24種語音風格控制(即2個說話人、3種音高和4種情感)。
- 多樣化配置:開源了3種配置,即EMOVA - 3B/7B/72B,以支持不同計算預算下的全模態使用。您可以查看模型庫,為您的計算設備找到最合適的模型!
📚 詳細文檔
屬性 |
詳情 |
庫名稱 |
transformers |
標籤 |
全模態大語言模型、多模態大語言模型、情感語音對話 |
許可證 |
Apache - 2.0 |
數據集 |
Emova - ollm/emova - alignment - 7m、Emova - ollm/emova - sft - 4m、Emova - ollm/emova - sft - speech - 231k |
語言 |
英文、中文 |
基礎模型 |
Emova - ollm/qwen2vit600m、Emova - ollm/Qwen2.5 - 3B - Instruct_add_speech_token_4096_nostrip |
模型索引名稱 |
emova - qwen - 2 - 5 - 3b - hf |
新版本 |
Emova - ollm/emova - qwen - 2 - 5 - 3b - hf |
模型評估結果
任務類型 |
數據集名稱 |
指標類型 |
指標值 |
指標名稱 |
是否驗證 |
多模態 |
AI2D |
準確率 |
78.6 |
準確率 |
是 |
多模態 |
ChartQA |
準確率 |
81.5 |
準確率 |
是 |
多模態 |
DocVQA |
準確率 |
93.5 |
準確率 |
是 |
多模態 |
InfoVQA |
準確率 |
71.2 |
準確率 |
是 |
多模態 |
MathVerse |
準確率 |
31.4 |
準確率 |
是 |
多模態 |
MathVista |
準確率 |
62.6 |
準確率 |
是 |
多模態 |
MMBench |
準確率 |
79.2 |
準確率 |
是 |
多模態 |
MME |
得分 |
2175 |
得分 |
是 |
多模態 |
MMVet |
準確率 |
57.3 |
準確率 |
是 |
多模態 |
OCRBench |
準確率 |
803 |
準確率 |
是 |
多模態 |
RealWorldQA |
準確率 |
62.6 |
準確率 |
是 |
多模態 |
Seed - Bench - Image |
準確率 |
74.9 |
準確率 |
是 |
多模態 |
Science - QA |
準確率 |
92.7 |
準確率 |
是 |
多模態 |
TextVQA |
準確率 |
77.2 |
準確率 |
是 |
自動語音識別 |
LibriSpeech (clean) |
字錯率 |
5.4 |
測試字錯率 |
無 |
不同模型性能對比
基準測試 |
EMOVA - 3B |
EMOVA - 7B |
EMOVA - 72B |
GPT - 4o |
VITA 8x7B |
VITA 1.5 |
百川全模態 |
MME |
2175 |
2317 |
2402 |
2310 |
2097 |
2311 |
2187 |
MMBench |
79.2 |
83.0 |
86.4 |
83.4 |
71.8 |
76.6 |
76.2 |
SEED - Image |
74.9 |
75.5 |
76.6 |
77.1 |
72.6 |
74.2 |
74.1 |
MM - Vet |
57.3 |
59.4 |
64.8 |
- |
41.6 |
51.1 |
65.4 |
RealWorldQA |
62.6 |
67.5 |
71.0 |
75.4 |
59.0 |
66.8 |
62.6 |
TextVQA |
77.2 |
78.0 |
81.4 |
- |
71.8 |
74.9 |
74.3 |
ChartQA |
81.5 |
84.9 |
88.7 |
85.7 |
76.6 |
79.6 |
79.6 |
DocVQA |
93.5 |
94.2 |
95.9 |
92.8 |
- |
- |
- |
InfoVQA |
71.2 |
75.1 |
83.2 |
- |
- |
- |
- |
OCRBench |
803 |
814 |
843 |
736 |
678 |
752 |
700 |
ScienceQA - Img |
92.7 |
96.4 |
98.2 |
- |
- |
- |
- |
AI2D |
78.6 |
81.7 |
85.8 |
84.6 |
73.1 |
79.3 |
- |
MathVista |
62.6 |
65.5 |
69.9 |
63.8 |
44.9 |
66.2 |
51.9 |
Mathverse |
31.4 |
40.9 |
50.0 |
- |
- |
- |
- |
Librispeech (字錯率↓) |
5.4 |
4.1 |
2.9 |
- |
3.4 |
8.1 |
- |
💻 使用示例
本倉庫包含以 EMOVA代碼庫 原始格式 組織的 EMOVA - Qwen2.5 - 3B 檢查點,因此,它應與EMOVA代碼庫一起使用。其配對的配置文件可在 此處 獲取。您可以查看 此處 以使用此檢查點啟動Web演示。
📄 許可證
本項目採用Apache - 2.0許可證。
📚 引用
@article{chen2024emova,
title={Emova: Empowering language models to see, hear and speak with vivid emotions},
author={Chen, Kai and Gou, Yunhao and Huang, Runhui and Liu, Zhili and Tan, Daxin and Xu, Jing and Wang, Chunwei and Zhu, Yi and Zeng, Yihan and Yang, Kuo and others},
journal={arXiv preprint arXiv:2409.18042},
year={2024}
}