🚀 OmniLMM 12B
OmniLMM-12B 是当前 OmniLMM 最强大的版本。该模型基于 EVA02-5B 和 Zephyr-7B-β 构建,通过感知器重采样层连接,并以课程学习的方式在多模态数据上进行训练。它能够解决多模态理解和交互中的复杂问题,为用户提供准确、可靠的多模态信息处理能力。
🚀 快速开始
点击 OmniLMM-12B 演示 进行体验。更多使用细节请查看 GitHub。
✨ 主要特性
- 🔥 强大性能:OmniLMM-12B 在同等规模的模型中取得了领先性能,在多个基准测试(包括 MME、MMBench、SEED-Bench 等)中超越了现有的大语言多模态模型(LMMs)。该模型还具备丰富的多模态世界知识。
- 🏆 可靠行为:大语言多模态模型(LMMs)常存在幻觉问题,即生成的文本与图像事实不符(例如,描述图像中不存在的物体)。OmniLMM-12B 是首个通过多模态基于人类反馈的强化学习(RLHF)进行对齐以实现可靠行为的开源大语言多模态模型(采用了近期的 RLHF-V 技术)。它在 MMHal-Bench 开源模型中排名第一,并在 Object HalBench 上优于 GPT-4V。
- 🕹 实时多模态交互:我们将 OmniLMM-12B 和 GPT-3.5(仅文本)组合成一个实时多模态交互助手。该助手可接收摄像头的视频流和麦克风的语音流,并输出语音。尽管仍处于初步阶段,但我们发现该模型可以重现 Gemini 演示视频中的一些有趣案例,无需任何视频编辑。
📚 详细文档
评估
点击查看在 MME、MMBench、MMMU、MMBench、MMHal-Bench、Object HalBench、SeedBench、LLaVA Bench W、MathVista 上的结果。
模型 |
规模 |
MME |
MMB dev (en) |
MMMU val |
MMHal-Bench |
Object HalBench |
SeedBench-I |
MathVista |
LLaVA Bench W |
GPT-4V† |
- |
1409 |
75.1 |
56.8 |
3.53 / 70.8 |
86.4 / 92.7 |
71.6 |
47.8 |
93.1 |
Qwen-VL-Plus† |
- |
1681 |
66.2 |
45.2 |
- |
- |
65.7 |
36.0 |
73.7 |
Yi-VL 6B |
6.7B |
- |
68.2 |
39.1 |
- |
- |
66.1 |
28.0 |
39.9 |
Qwen-VL-Chat |
9.6B |
1488 |
60.6 |
35.9 |
2.93 / 59.4 |
56.2 / 80.0 |
64.8 |
33.8 |
67.7 |
CogVLM |
17.4B |
1438 |
63.7 |
32.1 |
2.68 / 52.1 |
73.6 / 87.4 |
68.8 |
34.7 |
73.9 |
LLaVA 1.5 |
13.6B |
1531 |
68.2 |
36.4 |
2.71 / 51.0 |
53.7 / 77.4 |
68.1 |
26.4 |
64.6 |
OmniLMM-12B |
11.6B |
1637 |
71.6 |
40.7 |
3.45 / 68.8 |
90.3 / 95.5 |
71.1 |
34.9 |
72.0 |
†: 专有模型
📄 许可证
模型许可证
声明
- 作为大语言多模态模型,OmniLMM 通过学习大量文本生成内容,但它无法理解、表达个人观点或进行价值判断。OmniLMM 生成的任何内容均不代表模型开发者的观点和立场。
- 我们不对使用 OmniLMM 开源模型产生的任何问题负责,包括但不限于数据安全问题、舆论风险,或因模型误导、滥用、传播或误用而产生的任何风险和问题。
我们团队的多模态项目
VisCPM | RLHF-V | LLaVA-UHD
引用
如果您认为我们的工作有帮助,请考虑引用以下论文:
@article{yu2023rlhf,
title={Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback},
author={Yu, Tianyu and Yao, Yuan and Zhang, Haoye and He, Taiwen and Han, Yifeng and Cui, Ganqu and Hu, Jinyi and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong and others},
journal={arXiv preprint arXiv:2312.00849},
year={2023}
}
@article{viscpm,
title={Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages},
author={Jinyi Hu and Yuan Yao and Chongyi Wang and Shan Wang and Yinxu Pan and Qianyu Chen and Tianyu Yu and Hanghao Wu and Yue Zhao and Haoye Zhang and Xu Han and Yankai Lin and Jiao Xue and Dahai Li and Zhiyuan Liu and Maosong Sun},
journal={arXiv preprint arXiv:2308.12038},
year={2023}
}
@article{xu2024llava-uhd,
title={{LLaVA-UHD}: an LMM Perceiving Any Aspect Ratio and High-Resolution Images},
author={Xu, Ruyi and Yao, Yuan and Guo, Zonghao and Cui, Junbo and Ni, Zanlin and Ge, Chunjiang and Chua, Tat-Seng and Liu, Zhiyuan and Huang, Gao},
journal={arXiv preprint arXiv:2403.11703},
year={2024}
}