🚀 OmniLMM 12B
OmniLMM-12B は現在のOmniLMMシリーズで最も高性能なバージョンです。このモデルはEVA02-5BとZephyr-7B-βをベースに構築され、パーシーバーリサンプラー層で接続され、カリキュラム学習によってマルチモーダルデータで訓練されています。このモデルには以下の3つの顕著な特徴があります。
- 🔥 高い性能:OmniLMM-12Bは、同等のサイズのモデルの中でトップクラスの性能を達成しており、複数のベンチマーク(MME、MMBench、SEED-Benchなど)で既存のLMMを上回っています。また、豊富なマルチモーダルな世界知識を持っています。
- 🏆 信頼性の高い動作:LMMはしばしば幻覚現象を引き起こし、画像に存在しないオブジェクトを誤って記述することがあります。OmniLMM-12Bは、マルチモーダルRLHFによって信頼性の高い動作にアライメントされた最先端のオープンソースLMMです(最近のRLHF-V技術を使用)。MMHal-Benchではオープンソースモデルの中で1位を占め、Object HalBenchではGPT-4Vを上回っています。
- 🕹 リアルタイムマルチモーダルインタラクション:OmniLMM-12BとGPT-3.5(テキストのみ)を組み合わせて、リアルタイムマルチモーダルインタラクティブアシスタントを構築しています。このアシスタントはカメラからのビデオストリームとマイクからの音声ストリームを受け取り、音声出力を行います。まだ初期段階ですが、モデルはGeminiデモビデオに示されている面白いケースの一部を、ビデオ編集なしで再現することができます。
GitHub | デモ
🚀 クイックスタート
このプロジェクトのモデルは、視覚的質問応答(Visual Question Answering)タスクに特化しています。以下の情報を参考に、モデルの概要や使い方をご確認ください。
✨ 主な機能
- 高い性能:同等サイズのモデルの中でトップクラスの性能を発揮し、複数のベンチマークで既存のLMMを上回ります。
- 信頼性の高い動作:マルチモーダルRLHFによって信頼性の高い動作にアライメントされており、幻覚現象を抑えています。
- リアルタイムマルチモーダルインタラクション:カメラからのビデオストリームとマイクからの音声ストリームを受け取り、音声出力を行うことができます。
📚 ドキュメント
評価
MME、MMBench、MMMU、MMBench、MMHal-Bench、Object HalBench、SeedBench、LLaVA Bench W、MathVistaでの結果を表示するにはクリックしてください。
モデル |
サイズ |
MME |
MMB dev (en) |
MMMU val |
MMHal-Bench |
Object HalBench |
SeedBench-I |
MathVista |
LLaVA Bench W |
GPT-4V† |
- |
1409 |
75.1 |
56.8 |
3.53 / 70.8 |
86.4 / 92.7 |
71.6 |
47.8 |
93.1 |
Qwen-VL-Plus† |
- |
1681 |
66.2 |
45.2 |
- |
- |
65.7 |
36.0 |
73.7 |
Yi-VL 6B |
6.7B |
- |
68.2 |
39.1 |
- |
- |
66.1 |
28.0 |
39.9 |
Qwen-VL-Chat |
9.6B |
1488 |
60.6 |
35.9 |
2.93 / 59.4 |
56.2 / 80.0 |
64.8 |
33.8 |
67.7 |
CogVLM |
17.4B |
1438 |
63.7 |
32.1 |
2.68 / 52.1 |
73.6 / 87.4 |
68.8 |
34.7 |
73.9 |
LLaVA 1.5 |
13.6B |
1531 |
68.2 |
36.4 |
2.71 / 51.0 |
53.7 / 77.4 |
68.1 |
26.4 |
64.6 |
OmniLMM-12B |
11.6B |
1637 |
71.6 |
40.7 |
3.45 / 68.8 |
90.3 / 95.5 |
71.1 |
34.9 |
72.0 |
†: プロプライエタリモデル
デモ
OmniLMM-12Bのデモを試すにはここをクリックしてください。
使用方法
使用方法の詳細については、GitHubを参照してください。
📄 ライセンス
モデルライセンス
声明
- LMMとして、OmniLMMは大量のテキストを学習することで内容を生成しますが、理解や個人的な意見の表現、価値判断を行うことはできません。OmniLMMによって生成される内容は、モデル開発者の意見や立場を代表するものではありません。
- OmniLMMオープンソースモデルの使用によって生じる問題、データセキュリティ問題、世論のリスク、またはモデルの誤った誘導、誤用、拡散、または誤使用によって生じるすべてのリスクや問題について、当方は責任を負いません。
当チームのマルチモーダルプロジェクト
VisCPM | RLHF-V | LLaVA-UHD
引用
もし当研究が役に立った場合は、以下の論文を引用していただけると幸いです。
@article{yu2023rlhf,
title={Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback},
author={Yu, Tianyu and Yao, Yuan and Zhang, Haoye and He, Taiwen and Han, Yifeng and Cui, Ganqu and Hu, Jinyi and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong and others},
journal={arXiv preprint arXiv:2312.00849},
year={2023}
}
@article{viscpm,
title={Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages},
author={Jinyi Hu and Yuan Yao and Chongyi Wang and Shan Wang and Yinxu Pan and Qianyu Chen and Tianyu Yu and Hanghao Wu and Yue Zhao and Haoye Zhang and Xu Han and Yankai Lin and Jiao Xue and Dahai Li and Zhiyuan Liu and Maosong Sun},
journal={arXiv preprint arXiv:2308.12038},
year={2023}
}
@article{xu2024llava-uhd,
title={{LLaVA-UHD}: an LMM Perceiving Any Aspect Ratio and High-Resolution Images},
author={Xu, Ruyi and Yao, Yuan and Guo, Zonghao and Cui, Junbo and Ni, Zanlin and Ge, Chunjiang and Chua, Tat-Seng and Liu, Zhiyuan and Huang, Gao},
journal={arXiv preprint arXiv:2403.11703},
year={2024}
}