OmniLMM - 12Bオープンソースマルチモーダル大規模モデル - リアルタイムマルチモーダルインタラクションをサポートし、卓越した性能を発揮

Omnilmm 12B

openbmbによって開発

OmniLMM-12BはEVA02-5BとZephyr-7B-βを基に構築されたマルチモーダル大規模モデルで、知覚器リサンプリング層を介して接続され、段階的なカリキュラム学習戦略で訓練され、卓越した性能、信頼性のある動作、リアルタイムのマルチモーダルインタラクション能力を備えています。

テキスト生成画像

Transformers

#マルチモーダルRLHFアライメント #クロスモーダル知識 #リアルタイムインタラクション

ダウンロード数 251

リリース時間 : 1/31/2024

モデル概要

OmniLMM-12Bは強力な視覚質問応答モデルで、視覚と言語理解能力を組み合わせ、複雑なマルチモーダルタスクを処理でき、複数のベンチマークテストで優れた性能を発揮します。

モデル特徴

卓越した性能

MME、MMBench、SEED-Benchなどの複数のベンチマークテストで既存のLMMsを凌駕し、豊富なクロスモーダル世界知識を備えています。

信頼性のある動作

マルチモーダルRLHFアライメント技術を介して信頼性のある動作を実現した初のオープンソース最先端モデルで、MMHal-BenchとObject HalBenchで優れた性能を示します。

リアルタイムマルチモーダルインタラクション

GPT-3.5と組み合わせてリアルタイムマルチモーダルインタラクションアシスタントを構築し、カメラのビデオストリームとマイクの音声ストリームを受信し、音声応答を出力できます。

モデル能力

視覚質問応答

マルチモーダル理解

リアルタイムインタラクション

クロスモーダル知識応用

使用事例

教育

視覚質問応答による学習支援

画像とテキストを組み合わせた方法で複雑な概念を理解するのを学生に支援します。

学習効率と理解の深さを向上

インテリジェントアシスタント

リアルタイムマルチモーダルインタラクション

カメラとマイクを介してユーザーとリアルタイムでインタラクションし、音声応答を提供します。

Geminiデモビデオのような興味深いケースを実現

🚀 OmniLMM 12B

OmniLMM-12B は現在のOmniLMMシリーズで最も高性能なバージョンです。このモデルはEVA02-5BとZephyr-7B-βをベースに構築され、パーシーバーリサンプラー層で接続され、カリキュラム学習によってマルチモーダルデータで訓練されています。このモデルには以下の3つの顕著な特徴があります。

🔥 高い性能：OmniLMM-12Bは、同等のサイズのモデルの中でトップクラスの性能を達成しており、複数のベンチマーク（MME、MMBench、SEED-Benchなど）で既存のLMMを上回っています。また、豊富なマルチモーダルな世界知識を持っています。
🏆 信頼性の高い動作：LMMはしばしば幻覚現象を引き起こし、画像に存在しないオブジェクトを誤って記述することがあります。OmniLMM-12Bは、マルチモーダルRLHFによって信頼性の高い動作にアライメントされた最先端のオープンソースLMMです（最近のRLHF-V技術を使用）。MMHal-Benchではオープンソースモデルの中で1位を占め、Object HalBenchではGPT-4Vを上回っています。
🕹 リアルタイムマルチモーダルインタラクション：OmniLMM-12BとGPT-3.5（テキストのみ）を組み合わせて、リアルタイムマルチモーダルインタラクティブアシスタントを構築しています。このアシスタントはカメラからのビデオストリームとマイクからの音声ストリームを受け取り、音声出力を行います。まだ初期段階ですが、モデルはGeminiデモビデオに示されている面白いケースの一部を、ビデオ編集なしで再現することができます。

GitHub | デモ

🚀 クイックスタート

このプロジェクトのモデルは、視覚的質問応答（Visual Question Answering）タスクに特化しています。以下の情報を参考に、モデルの概要や使い方をご確認ください。

✨ 主な機能

高い性能：同等サイズのモデルの中でトップクラスの性能を発揮し、複数のベンチマークで既存のLMMを上回ります。
信頼性の高い動作：マルチモーダルRLHFによって信頼性の高い動作にアライメントされており、幻覚現象を抑えています。
リアルタイムマルチモーダルインタラクション：カメラからのビデオストリームとマイクからの音声ストリームを受け取り、音声出力を行うことができます。

📚 ドキュメント

評価

MME、MMBench、MMMU、MMBench、MMHal-Bench、Object HalBench、SeedBench、LLaVA Bench W、MathVistaでの結果を表示するにはクリックしてください。

モデル	サイズ	MME	MMB dev (en)	MMMU val	MMHal-Bench	Object HalBench	SeedBench-I	MathVista	LLaVA Bench W
GPT-4V†	-	1409	75.1	56.8	3.53 / 70.8	86.4 / 92.7	71.6	47.8	93.1
Qwen-VL-Plus†	-	1681	66.2	45.2	-	-	65.7	36.0	73.7
Yi-VL 6B	6.7B	-	68.2	39.1	-	-	66.1	28.0	39.9
Qwen-VL-Chat	9.6B	1488	60.6	35.9	2.93 / 59.4	56.2 / 80.0	64.8	33.8	67.7
CogVLM	17.4B	1438	63.7	32.1	2.68 / 52.1	73.6 / 87.4	68.8	34.7	73.9
LLaVA 1.5	13.6B	1531	68.2	36.4	2.71 / 51.0	53.7 / 77.4	68.1	26.4	64.6
OmniLMM-12B	11.6B	1637	71.6	40.7	3.45 / 68.8	90.3 / 95.5	71.1	34.9	72.0

†: プロプライエタリモデル

デモ

OmniLMM-12Bのデモを試すにはここをクリックしてください。

使用方法

使用方法の詳細については、GitHubを参照してください。

📄 ライセンス

モデルライセンス

このリポジトリのコードはApache-2.0に従って公開されています。
OmniLMMのパラメータの使用は、"General Model License Agreement - Source Notes - Publicity Restrictions - Commercial License"に従います。
パラメータは学術研究には完全に公開されています。
商用利用については、cpm@modelbest.cnに連絡して書面による許可を取得してください。登録後は無料での商用利用も可能です。

声明

LMMとして、OmniLMMは大量のテキストを学習することで内容を生成しますが、理解や個人的な意見の表現、価値判断を行うことはできません。OmniLMMによって生成される内容は、モデル開発者の意見や立場を代表するものではありません。
OmniLMMオープンソースモデルの使用によって生じる問題、データセキュリティ問題、世論のリスク、またはモデルの誤った誘導、誤用、拡散、または誤使用によって生じるすべてのリスクや問題について、当方は責任を負いません。

当チームのマルチモーダルプロジェクト

VisCPM | RLHF-V | LLaVA-UHD

引用

もし当研究が役に立った場合は、以下の論文を引用していただけると幸いです。

@article{yu2023rlhf,
  title={Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback},
  author={Yu, Tianyu and Yao, Yuan and Zhang, Haoye and He, Taiwen and Han, Yifeng and Cui, Ganqu and Hu, Jinyi and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong and others},
  journal={arXiv preprint arXiv:2312.00849},
  year={2023}
}
@article{viscpm,
    title={Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages}, 
    author={Jinyi Hu and Yuan Yao and Chongyi Wang and Shan Wang and Yinxu Pan and Qianyu Chen and Tianyu Yu and Hanghao Wu and Yue Zhao and Haoye Zhang and Xu Han and Yankai Lin and Jiao Xue and Dahai Li and Zhiyuan Liu and Maosong Sun},
    journal={arXiv preprint arXiv:2308.12038},
    year={2023}
}
@article{xu2024llava-uhd,
  title={{LLaVA-UHD}: an LMM Perceiving Any Aspect Ratio and High-Resolution Images},
  author={Xu, Ruyi and Yao, Yuan and Guo, Zonghao and Cui, Junbo and Ni, Zanlin and Ge, Chunjiang and Chua, Tat-Seng and Liu, Zhiyuan and Huang, Gao},
  journal={arXiv preprint arXiv:2403.11703},
  year={2024}
}