🚀 OmniLMM 12B
OmniLMM-12B 是當前 OmniLMM 最強大的版本。該模型基於 EVA02-5B 和 Zephyr-7B-β 構建,通過感知器重採樣層連接,並以課程學習的方式在多模態數據上進行訓練。它能夠解決多模態理解和交互中的複雜問題,為用戶提供準確、可靠的多模態信息處理能力。
🚀 快速開始
點擊 OmniLMM-12B 演示 進行體驗。更多使用細節請查看 GitHub。
✨ 主要特性
- 🔥 強大性能:OmniLMM-12B 在同等規模的模型中取得了領先性能,在多個基準測試(包括 MME、MMBench、SEED-Bench 等)中超越了現有的大語言多模態模型(LMMs)。該模型還具備豐富的多模態世界知識。
- 🏆 可靠行為:大語言多模態模型(LMMs)常存在幻覺問題,即生成的文本與圖像事實不符(例如,描述圖像中不存在的物體)。OmniLMM-12B 是首個通過多模態基於人類反饋的強化學習(RLHF)進行對齊以實現可靠行為的開源大語言多模態模型(採用了近期的 RLHF-V 技術)。它在 MMHal-Bench 開源模型中排名第一,並在 Object HalBench 上優於 GPT-4V。
- 🕹 即時多模態交互:我們將 OmniLMM-12B 和 GPT-3.5(僅文本)組合成一個即時多模態交互助手。該助手可接收攝像頭的視頻流和麥克風的語音流,並輸出語音。儘管仍處於初步階段,但我們發現該模型可以重現 Gemini 演示視頻中的一些有趣案例,無需任何視頻編輯。
📚 詳細文檔
評估
點擊查看在 MME、MMBench、MMMU、MMBench、MMHal-Bench、Object HalBench、SeedBench、LLaVA Bench W、MathVista 上的結果。
模型 |
規模 |
MME |
MMB dev (en) |
MMMU val |
MMHal-Bench |
Object HalBench |
SeedBench-I |
MathVista |
LLaVA Bench W |
GPT-4V† |
- |
1409 |
75.1 |
56.8 |
3.53 / 70.8 |
86.4 / 92.7 |
71.6 |
47.8 |
93.1 |
Qwen-VL-Plus† |
- |
1681 |
66.2 |
45.2 |
- |
- |
65.7 |
36.0 |
73.7 |
Yi-VL 6B |
6.7B |
- |
68.2 |
39.1 |
- |
- |
66.1 |
28.0 |
39.9 |
Qwen-VL-Chat |
9.6B |
1488 |
60.6 |
35.9 |
2.93 / 59.4 |
56.2 / 80.0 |
64.8 |
33.8 |
67.7 |
CogVLM |
17.4B |
1438 |
63.7 |
32.1 |
2.68 / 52.1 |
73.6 / 87.4 |
68.8 |
34.7 |
73.9 |
LLaVA 1.5 |
13.6B |
1531 |
68.2 |
36.4 |
2.71 / 51.0 |
53.7 / 77.4 |
68.1 |
26.4 |
64.6 |
OmniLMM-12B |
11.6B |
1637 |
71.6 |
40.7 |
3.45 / 68.8 |
90.3 / 95.5 |
71.1 |
34.9 |
72.0 |
†: 專有模型
📄 許可證
模型許可證
聲明
- 作為大語言多模態模型,OmniLMM 通過學習大量文本生成內容,但它無法理解、表達個人觀點或進行價值判斷。OmniLMM 生成的任何內容均不代表模型開發者的觀點和立場。
- 我們不對使用 OmniLMM 開源模型產生的任何問題負責,包括但不限於數據安全問題、輿論風險,或因模型誤導、濫用、傳播或誤用而產生的任何風險和問題。
我們團隊的多模態項目
VisCPM | RLHF-V | LLaVA-UHD
引用
如果您認為我們的工作有幫助,請考慮引用以下論文:
@article{yu2023rlhf,
title={Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback},
author={Yu, Tianyu and Yao, Yuan and Zhang, Haoye and He, Taiwen and Han, Yifeng and Cui, Ganqu and Hu, Jinyi and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong and others},
journal={arXiv preprint arXiv:2312.00849},
year={2023}
}
@article{viscpm,
title={Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages},
author={Jinyi Hu and Yuan Yao and Chongyi Wang and Shan Wang and Yinxu Pan and Qianyu Chen and Tianyu Yu and Hanghao Wu and Yue Zhao and Haoye Zhang and Xu Han and Yankai Lin and Jiao Xue and Dahai Li and Zhiyuan Liu and Maosong Sun},
journal={arXiv preprint arXiv:2308.12038},
year={2023}
}
@article{xu2024llava-uhd,
title={{LLaVA-UHD}: an LMM Perceiving Any Aspect Ratio and High-Resolution Images},
author={Xu, Ruyi and Yao, Yuan and Guo, Zonghao and Cui, Junbo and Ni, Zanlin and Ge, Chunjiang and Chua, Tat-Seng and Liu, Zhiyuan and Huang, Gao},
journal={arXiv preprint arXiv:2403.11703},
year={2024}
}