llama3-mova-8bオープンソース多モーダル大規模言語モデル - 多モーダル研究とチャットボット開発を支援

ホーム

Llama3 Mova 8b

zongzhuofanによって開発

MoVA-8Bはオープンソースのマルチモーダル大規模言語モデルで、粗から細へのメカニズムを採用し、特定タスクのビジュアルエキスパートモジュールを適応的にルーティングおよび融合し、マルチモーダルモデルとチャットボットの研究に使用できます。

マルチモーダル融合

Transformers

#マルチモーダル適応型ルーティング #ビジュアルエキスパート融合 #クロスドメインビジュアル質問応答

ダウンロード数 835

リリース時間 : 6/28/2024

モデル概要

MoVA-8Bはマルチモーダル大規模言語モデルで、複数のビジュアルエンコーダと強力な基礎言語モデルを組み合わせ、マルチモーダル融合やビジュアル質問応答などのタスクをサポートします。

モデル特徴

マルチモーダル融合

粗から細へのメカニズムを採用し、特定タスクのビジュアルエキスパートモジュールを適応的にルーティングおよび融合します。

豊富なビジュアルエンコーダ

OpenAI-CLIP-336px、DINOv2-giantなどの複数のビジュアルエンコーダを統合しています。

強力な基礎大規模言語モデル

meta-llama/Meta-Llama-3-8B-Instructをベースに、強力な言語理解と生成能力を備えています。

モデル能力

マルチモーダル融合

ビジュアル質問応答

テキスト生成

画像分析

ビジュアル位置決め

使用事例

マルチモーダル研究

マルチモーダルチャットボット

画像とテキストの対話をサポートするチャットボットの構築に使用します。

ビジュアル質問応答

文書理解

文書内容の解析と理解に使用し、DocVQAなどのタスクをサポートします。

DocVQAの正解率83.4

🚀 MoVA-8Bモデルカード

MoVA-8Bはオープンソースの多モーダル大規模言語モデルです。このモデルは粗から細へのメカニズムを採用し、特定タスクの視覚エキスパートモジュールを適応的にルーティングおよび融合します。多モーダルモデルやチャットボットの研究に利用できます。

✨ 主な機能

多モーダル融合：粗から細へのメカニズムを用いて、特定タスクの視覚エキスパートモジュールを適応的にルーティングおよび融合します。
豊富な視覚エンコーダ：OpenAI-CLIP-336px、DINOv2-giantなど、複数の視覚エンコーダを統合しています。
強力な基礎大規模言語モデル：meta-llama/Meta-Llama-3-8B-Instructに基づいています。

📦 インストール

[リポジトリ]で提供している方法に従って、このモデルを直接使用することができます。

📚 ドキュメント

モデルの詳細

モデルタイプ：MoVA-8Bはオープンソースの多モーダル大規模言語モデル（MLLM）で、粗から細へのメカニズムを採用し、特定タスクの視覚エキスパートモジュールを適応的にルーティングおよび融合します。
- 視覚エンコーダ：OpenAI-CLIP-336px、DINOv2-giant、Co-DETR-large、SAM-huge、Vary-base、Pix2Struct-large、Deplot-base、BiomedCLIP-base
- 基礎大規模言語モデル：meta-llama/Meta-Llama-3-8B-Instruct
詳細情報の論文やリソース：[論文] [コード]

想定用途

主な想定用途：MoVA-8Bは主に多モーダルモデルやチャットボットの研究に使用されます。
主な想定ユーザー：このモデルの主な想定ユーザーは、コンピュータビジョン、自然言語処理、機械学習、人工知能の分野の研究者や愛好家です。

学習データセット

事前学習：1500万個の多様な視覚命令調整サンプルを使用して事前学習を行いました。これにはDataComp-1B、ShareGPT4V-PT、Objects365、MMC-Instructionが含まれます。詳細については、当社の論文を参照してください。
微調整：200万個の高品質命令データを使用して微調整を行いました。DocVQA、ChartQA、InfographicVQA、AI2D、ST-VQA、TextVQA、SynthDoG-en、Geometry3K、PGPS9K、Geo170K、VQA-RAD、SLAKEなど、複数の異分野の視覚質問応答データセットをLLaVA-mix-665kに統合しました。また、GPT4-Vによって生成された同等の合成字幕も含まれています。

評価データセット

広範な一般的な多モーダル大規模言語モデルベンチマークでモデルを評価しました。

多モーダルベンチマーク

名称	大規模言語モデル	#トークン	MME	MMBench	MMBench-CN	QBench	MathVista	MathVerse	POPE
MoVA-8B	Llama3-8B	576	1595.8 / 347.5	75.3	67.7	70.8	37.7	21.4	89.3

一般的およびテキスト指向の視覚質問応答

名称	大規模言語モデル	#トークン	VQAv2	GQA	SQA	TextVQA	ChartQA	DocVQA	AI2D
MoVA-8B	Llama3-8B	576	83.5	65.2	74.7	77.1	70.5	83.4	77.0

視覚位置特定

名称	大規模言語モデル	#トークン	RefCOCO(検証)	RefCOCO(テストA)	RefCOCO(テストB)	RefCOCO+(検証)	RefCOCO+(テストA)	RefCOCO+(テストB)	RefCOCO-g(検証)	RefCOCO-g(テスト)
MoVA-8B	Llama3-8B	576	92.18	94.75	88.24	88.45	92.21	82.82	90.05	90.23

📄 ライセンス

このプロジェクトでは、特定のデータセットとチェックポイントを使用しています。これらのデータセットとチェックポイントは、それぞれの元のライセンスの制約を受けます。ユーザーは、これらの元のライセンスのすべての条項および条件を遵守する必要があります。これには、データセットのOpenAI利用規約や、そのデータセットを使用して学習されたチェックポイントの基礎言語モデルの特定のライセンス（例：META LLAMA 3コミュニティライセンス契約）が含まれます。