O

Omnilmm 12B

openbmbによって開発
OmniLMM-12BはEVA02-5BとZephyr-7B-βを基に構築されたマルチモーダル大規模モデルで、知覚器リサンプリング層を介して接続され、段階的なカリキュラム学習戦略で訓練され、卓越した性能、信頼性のある動作、リアルタイムのマルチモーダルインタラクション能力を備えています。
ダウンロード数 251
リリース時間 : 1/31/2024

モデル概要

OmniLMM-12Bは強力な視覚質問応答モデルで、視覚と言語理解能力を組み合わせ、複雑なマルチモーダルタスクを処理でき、複数のベンチマークテストで優れた性能を発揮します。

モデル特徴

卓越した性能
MME、MMBench、SEED-Benchなどの複数のベンチマークテストで既存のLMMsを凌駕し、豊富なクロスモーダル世界知識を備えています。
信頼性のある動作
マルチモーダルRLHFアライメント技術を介して信頼性のある動作を実現した初のオープンソース最先端モデルで、MMHal-BenchとObject HalBenchで優れた性能を示します。
リアルタイムマルチモーダルインタラクション
GPT-3.5と組み合わせてリアルタイムマルチモーダルインタラクションアシスタントを構築し、カメラのビデオストリームとマイクの音声ストリームを受信し、音声応答を出力できます。

モデル能力

視覚質問応答
マルチモーダル理解
リアルタイムインタラクション
クロスモーダル知識応用

使用事例

教育
視覚質問応答による学習支援
画像とテキストを組み合わせた方法で複雑な概念を理解するのを学生に支援します。
学習効率と理解の深さを向上
インテリジェントアシスタント
リアルタイムマルチモーダルインタラクション
カメラとマイクを介してユーザーとリアルタイムでインタラクションし、音声応答を提供します。
Geminiデモビデオのような興味深いケースを実現
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase