### ReflectiVAオープンソースマルチモーダル大規模モデル - 視覚的な質問応答能力を強化し、無料でデプロイして使おう！

ホーム

Reflectiva

aimagelabによって開発

ReflectiVAは、外部知識源とリフレクショントークン機構を統合することで視覚的質問応答能力を強化したマルチモーダル大規模言語モデルです。

テキスト生成画像

Transformers

オープンソースライセンス:Apache-2.0 #マルチモーダル知識拡張 #動的知識検索 #視覚的質問応答最適化

ダウンロード数 46

リリース時間 : 11/25/2024

モデル概要

ReflectiVAは革新的なマルチモーダル大規模言語モデルで、テキストと画像入力を処理でき、リフレクショントークンによって外部知識が必要かどうかを動的に判断し、必要に応じて外部データベースから関連情報を検索することで、知識ベースの視覚的質問応答タスクの性能を向上させます。

モデル特徴

リフレクショントークン機構

特別に設計されたリフレクショントークンによって外部知識が必要かどうかを動的に判断し、インテリジェントな知識検索を実現

二段階トレーニング

デュアルモデルトレーニングスキームを採用し、基本性能を維持しながら知識取得能力を強化

知識拡張

外部知識源を効果的に統合し、複雑な視覚的質問応答タスクの精度を向上

モデル能力

マルチモーダル理解

視覚的質問応答

外部知識検索

画像-テキスト連携処理

使用事例

教育

複雑な視覚的質問応答

外部知識を必要とする画像関連の質問に回答

知識ベースの視覚的質問応答タスクにおいて既存手法を上回る性能

研究

マルチモーダル研究

視覚と言語の連携理解メカニズムを探求

🚀 モデルカード: Reflective LLaVA (ReflectiVA)

マルチモーダル大規模言語モデル（MLLM）は、大規模言語モデルを拡張して、テキストと画像データを組み合わせたマルチモーダル入力を扱えるようにしたものです。これらのモデルは、最近、両方のモダリティを含む複雑なタスクを解決する能力があることから注目を集めています。しかし、その有効性は学習中に獲得した知識に限定されており、実用性が制限されています。この研究では、外部の知識源を統合することでMLLMの適応性を高める新しい方法を提案します。

我々が提案するモデルであるReflective LLaVA（ReflectiVA）は、反射トークンを利用して、外部知識の必要性を動的に判断し、外部データベースから取得した情報の関連性を予測します。トークンは、二段階二モデルの学習方法で学習されます。これにより、MLLMは外部知識を管理しながら、外部知識が不要なタスクでも流暢性と性能を維持することができます。

ReflectiVAは、知識ベースの視覚的質問応答において有効であり、既存の方法と比較して優れた性能を示しています。

このモデルスペースでは、ReflectiVAの全体モデル（二段階目）の重みを見つけることができます。

詳細については、ReflectiVAリポジトリ、プロジェクトページ、およびデータセットを参照してください。

📚 詳細ドキュメント

引用

我々の研究を利用する場合は、以下のように引用してください。

@inproceedings{cocchi2024augmenting,
  title={{Augmenting Multimodal LLMs with Self-Reflective Tokens for Knowledge-based Visual Question Answering}},
  author={Cocchi, Federico and Moratelli, Nicholas and Cornia, Marcella and Baraldi, Lorenzo and Cucchiara, Rita},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  year={2025}
}