OmniLMM-12B开源多模态大模型 - 支持实时多模态交互，性能卓越

首页

Omnilmm 12B

由 openbmb 开发

OmniLMM-12B是基于EVA02-5B和Zephyr-7B-β构建的多模态大模型，通过感知器重采样层连接，采用渐进式课程学习策略训练，具有卓越性能、可信行为和实时多模态交互能力。

文本生成图像

Transformers

#多模态RLHF对齐 #跨模态知识 #实时交互

下载量 251

发布时间 : 1/31/2024

模型简介

OmniLMM-12B是一个强大的视觉问答模型，结合了视觉和语言理解能力，能够处理复杂的多模态任务，并在多个基准测试中表现出色。

模型特点

卓越性能

在MME、MMBench、SEED-Bench等多个基准测试中超越现有LMMs，具备丰富的跨模态世界知识。

可信行为

首个通过多模态RLHF对齐技术实现可信行为的开源前沿模型，在MMHal-Bench和Object HalBench上表现优异。

实时多模态交互

与GPT-3.5结合打造实时多模态交互助手，可接收摄像头视频流和麦克风语音流，并输出语音响应。

模型能力

视觉问答

多模态理解

实时交互

跨模态知识应用

使用案例

教育

视觉问答辅助学习

帮助学生通过图像和文本结合的方式理解复杂概念。

提升学习效率和理解深度

智能助手

实时多模态交互

通过摄像头和麦克风与用户进行实时交互，提供语音响应。

实现类似Gemini演示视频中的趣味案例

🚀 OmniLMM 12B

OmniLMM-12B 是当前 OmniLMM 最强大的版本。该模型基于 EVA02-5B 和 Zephyr-7B-β 构建，通过感知器重采样层连接，并以课程学习的方式在多模态数据上进行训练。它能够解决多模态理解和交互中的复杂问题，为用户提供准确、可靠的多模态信息处理能力。

🚀 快速开始

点击 OmniLMM-12B 演示进行体验。更多使用细节请查看 GitHub。

✨ 主要特性

🔥 强大性能：OmniLMM-12B 在同等规模的模型中取得了领先性能，在多个基准测试（包括 MME、MMBench、SEED-Bench 等）中超越了现有的大语言多模态模型（LMMs）。该模型还具备丰富的多模态世界知识。
🏆 可靠行为：大语言多模态模型（LMMs）常存在幻觉问题，即生成的文本与图像事实不符（例如，描述图像中不存在的物体）。OmniLMM-12B 是首个通过多模态基于人类反馈的强化学习（RLHF）进行对齐以实现可靠行为的开源大语言多模态模型（采用了近期的 RLHF-V 技术）。它在 MMHal-Bench 开源模型中排名第一，并在 Object HalBench 上优于 GPT-4V。
🕹 实时多模态交互：我们将 OmniLMM-12B 和 GPT-3.5（仅文本）组合成一个实时多模态交互助手。该助手可接收摄像头的视频流和麦克风的语音流，并输出语音。尽管仍处于初步阶段，但我们发现该模型可以重现 Gemini 演示视频中的一些有趣案例，无需任何视频编辑。

📚 详细文档

评估

点击查看在 MME、MMBench、MMMU、MMBench、MMHal-Bench、Object HalBench、SeedBench、LLaVA Bench W、MathVista 上的结果。

模型	规模	MME	MMB dev (en)	MMMU val	MMHal-Bench	Object HalBench	SeedBench-I	MathVista	LLaVA Bench W
GPT-4V†	-	1409	75.1	56.8	3.53 / 70.8	86.4 / 92.7	71.6	47.8	93.1
Qwen-VL-Plus†	-	1681	66.2	45.2	-	-	65.7	36.0	73.7
Yi-VL 6B	6.7B	-	68.2	39.1	-	-	66.1	28.0	39.9
Qwen-VL-Chat	9.6B	1488	60.6	35.9	2.93 / 59.4	56.2 / 80.0	64.8	33.8	67.7
CogVLM	17.4B	1438	63.7	32.1	2.68 / 52.1	73.6 / 87.4	68.8	34.7	73.9
LLaVA 1.5	13.6B	1531	68.2	36.4	2.71 / 51.0	53.7 / 77.4	68.1	26.4	64.6
OmniLMM-12B	11.6B	1637	71.6	40.7	3.45 / 68.8	90.3 / 95.5	71.1	34.9	72.0

†: 专有模型

📄 许可证

模型许可证

本仓库中的代码根据 Apache-2.0 许可发布。
OmniLMM 参数的使用需遵循 "通用模型许可协议 - 源注释 - 宣传限制 - 商业许可"。
参数完全开放用于学术研究。
商业使用请联系 cpm@modelbest.cn 获取书面授权。注册后也允许免费商业使用。

声明

作为大语言多模态模型，OmniLMM 通过学习大量文本生成内容，但它无法理解、表达个人观点或进行价值判断。OmniLMM 生成的任何内容均不代表模型开发者的观点和立场。
我们不对使用 OmniLMM 开源模型产生的任何问题负责，包括但不限于数据安全问题、舆论风险，或因模型误导、滥用、传播或误用而产生的任何风险和问题。

我们团队的多模态项目

VisCPM | RLHF-V | LLaVA-UHD

引用

如果您认为我们的工作有帮助，请考虑引用以下论文：

@article{yu2023rlhf,
  title={Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback},
  author={Yu, Tianyu and Yao, Yuan and Zhang, Haoye and He, Taiwen and Han, Yifeng and Cui, Ganqu and Hu, Jinyi and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong and others},
  journal={arXiv preprint arXiv:2312.00849},
  year={2023}
}
@article{viscpm,
    title={Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages}, 
    author={Jinyi Hu and Yuan Yao and Chongyi Wang and Shan Wang and Yinxu Pan and Qianyu Chen and Tianyu Yu and Hanghao Wu and Yue Zhao and Haoye Zhang and Xu Han and Yankai Lin and Jiao Xue and Dahai Li and Zhiyuan Liu and Maosong Sun},
    journal={arXiv preprint arXiv:2308.12038},
    year={2023}
}
@article{xu2024llava-uhd,
  title={{LLaVA-UHD}: an LMM Perceiving Any Aspect Ratio and High-Resolution Images},
  author={Xu, Ruyi and Yao, Yuan and Guo, Zonghao and Cui, Junbo and Ni, Zanlin and Ge, Chunjiang and Chua, Tat-Seng and Liu, Zhiyuan and Huang, Gao},
  journal={arXiv preprint arXiv:2403.11703},
  year={2024}
}