OmniLMM-12B開源多模態大模型 - 支持即時多模態交互，性能卓越

首頁

Omnilmm 12B

由openbmb開發

OmniLMM-12B是基於EVA02-5B和Zephyr-7B-β構建的多模態大模型，通過感知器重採樣層連接，採用漸進式課程學習策略訓練，具有卓越性能、可信行為和即時多模態交互能力。

文本生成圖像

Transformers

#多模態RLHF對齊 #跨模態知識 #即時交互

下載量 251

發布時間 : 1/31/2024

模型概述

OmniLMM-12B是一個強大的視覺問答模型，結合了視覺和語言理解能力，能夠處理複雜的多模態任務，並在多個基準測試中表現出色。

模型特點

卓越性能

在MME、MMBench、SEED-Bench等多個基準測試中超越現有LMMs，具備豐富的跨模態世界知識。

可信行為

首個通過多模態RLHF對齊技術實現可信行為的開源前沿模型，在MMHal-Bench和Object HalBench上表現優異。

即時多模態交互

與GPT-3.5結合打造即時多模態交互助手，可接收攝像頭視頻流和麥克風語音流，並輸出語音響應。

模型能力

視覺問答

多模態理解

即時交互

跨模態知識應用

使用案例

教育

視覺問答輔助學習

幫助學生通過圖像和文本結合的方式理解複雜概念。

提升學習效率和理解深度

智能助手

即時多模態交互

通過攝像頭和麥克風與用戶進行即時交互，提供語音響應。

實現類似Gemini演示視頻中的趣味案例

🚀 OmniLMM 12B

OmniLMM-12B 是當前 OmniLMM 最強大的版本。該模型基於 EVA02-5B 和 Zephyr-7B-β 構建，通過感知器重採樣層連接，並以課程學習的方式在多模態數據上進行訓練。它能夠解決多模態理解和交互中的複雜問題，為用戶提供準確、可靠的多模態信息處理能力。

🚀 快速開始

點擊 OmniLMM-12B 演示進行體驗。更多使用細節請查看 GitHub。

✨ 主要特性

🔥 強大性能：OmniLMM-12B 在同等規模的模型中取得了領先性能，在多個基準測試（包括 MME、MMBench、SEED-Bench 等）中超越了現有的大語言多模態模型（LMMs）。該模型還具備豐富的多模態世界知識。
🏆 可靠行為：大語言多模態模型（LMMs）常存在幻覺問題，即生成的文本與圖像事實不符（例如，描述圖像中不存在的物體）。OmniLMM-12B 是首個通過多模態基於人類反饋的強化學習（RLHF）進行對齊以實現可靠行為的開源大語言多模態模型（採用了近期的 RLHF-V 技術）。它在 MMHal-Bench 開源模型中排名第一，並在 Object HalBench 上優於 GPT-4V。
🕹 即時多模態交互：我們將 OmniLMM-12B 和 GPT-3.5（僅文本）組合成一個即時多模態交互助手。該助手可接收攝像頭的視頻流和麥克風的語音流，並輸出語音。儘管仍處於初步階段，但我們發現該模型可以重現 Gemini 演示視頻中的一些有趣案例，無需任何視頻編輯。

📚 詳細文檔

評估

點擊查看在 MME、MMBench、MMMU、MMBench、MMHal-Bench、Object HalBench、SeedBench、LLaVA Bench W、MathVista 上的結果。

模型	規模	MME	MMB dev (en)	MMMU val	MMHal-Bench	Object HalBench	SeedBench-I	MathVista	LLaVA Bench W
GPT-4V†	-	1409	75.1	56.8	3.53 / 70.8	86.4 / 92.7	71.6	47.8	93.1
Qwen-VL-Plus†	-	1681	66.2	45.2	-	-	65.7	36.0	73.7
Yi-VL 6B	6.7B	-	68.2	39.1	-	-	66.1	28.0	39.9
Qwen-VL-Chat	9.6B	1488	60.6	35.9	2.93 / 59.4	56.2 / 80.0	64.8	33.8	67.7
CogVLM	17.4B	1438	63.7	32.1	2.68 / 52.1	73.6 / 87.4	68.8	34.7	73.9
LLaVA 1.5	13.6B	1531	68.2	36.4	2.71 / 51.0	53.7 / 77.4	68.1	26.4	64.6
OmniLMM-12B	11.6B	1637	71.6	40.7	3.45 / 68.8	90.3 / 95.5	71.1	34.9	72.0

†: 專有模型

📄 許可證

模型許可證

本倉庫中的代碼根據 Apache-2.0 許可發佈。
OmniLMM 參數的使用需遵循 "通用模型許可協議 - 源註釋 - 宣傳限制 - 商業許可"。
參數完全開放用於學術研究。
商業使用請聯繫 cpm@modelbest.cn 獲取書面授權。註冊後也允許免費商業使用。

聲明

作為大語言多模態模型，OmniLMM 通過學習大量文本生成內容，但它無法理解、表達個人觀點或進行價值判斷。OmniLMM 生成的任何內容均不代表模型開發者的觀點和立場。
我們不對使用 OmniLMM 開源模型產生的任何問題負責，包括但不限於數據安全問題、輿論風險，或因模型誤導、濫用、傳播或誤用而產生的任何風險和問題。

我們團隊的多模態項目

VisCPM | RLHF-V | LLaVA-UHD

引用

如果您認為我們的工作有幫助，請考慮引用以下論文：

@article{yu2023rlhf,
  title={Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback},
  author={Yu, Tianyu and Yao, Yuan and Zhang, Haoye and He, Taiwen and Han, Yifeng and Cui, Ganqu and Hu, Jinyi and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong and others},
  journal={arXiv preprint arXiv:2312.00849},
  year={2023}
}
@article{viscpm,
    title={Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages}, 
    author={Jinyi Hu and Yuan Yao and Chongyi Wang and Shan Wang and Yinxu Pan and Qianyu Chen and Tianyu Yu and Hanghao Wu and Yue Zhao and Haoye Zhang and Xu Han and Yankai Lin and Jiao Xue and Dahai Li and Zhiyuan Liu and Maosong Sun},
    journal={arXiv preprint arXiv:2308.12038},
    year={2023}
}
@article{xu2024llava-uhd,
  title={{LLaVA-UHD}: an LMM Perceiving Any Aspect Ratio and High-Resolution Images},
  author={Xu, Ruyi and Yao, Yuan and Guo, Zonghao and Cui, Junbo and Ni, Zanlin and Ge, Chunjiang and Chua, Tat-Seng and Liu, Zhiyuan and Huang, Gao},
  journal={arXiv preprint arXiv:2403.11703},
  year={2024}
}