Spatial-LLaVA-7B-ggufオープンソースマルチモーダルモデル - 空間推論の強化を研究とチャットボット開発に活用

ホーム

Spatial LLaVA 7B Gguf

rogerxiによって開発

Spatial-LLaVA-7BはLLaVAモデルを微調整したマルチモーダルモデルで、空間関係推論能力の向上に特化しており、マルチモーダル研究やチャットボット開発に適しています。

テキスト生成画像

Safetensors

オープンソースライセンス:Apache-2.0 #空間関係推論 #マルチモーダル対話 #ビジュアル質問応答の強化

ダウンロード数 252

リリース時間 : 5/10/2025

モデル概要

このモデルはLLaVAモデルを微調整することで、大型マルチモーダルモデルの空間関係推論能力を強化し、マルチモーダル対話システムの研究や開発に利用できます。

モデル特徴

強化された空間関係推論

専用のデータセットで訓練することで、モデルの物体間の空間関係理解能力が大幅に向上しました。

マルチモーダル能力

視覚情報と言語情報を同時に処理し、異なるモーダル間の理解と推論を実現できます。

オープンソース利用可能

モデルと訓練データはオープンソースで公開されており、研究や二次開発が容易です。

モデル能力

ビジュアル質問応答

空間関係推論

マルチモーダル対話

画像理解

テキスト生成

使用事例

研究

マルチモーダルモデル研究

大型マルチモーダルモデルの空間推論能力の研究に利用

Spatial - Relation - Evalベンチマークテストで基礎LLaVAモデルよりも優れた性能を示しました。

アプリケーション開発

スマートチャットボット

画像の空間関係を理解できる対話システムの開発

🚀 Spatial-LLaVA-7Bモデルカード

Spatial-LLaVA-7Bは、LLaVAモデルをベースにさらに最適化された微調整済みのマルチモーダルモデルです。大型マルチモーダルモデルの空間関係推論能力を向上させることを目的としており、マルチモーダル研究やチャットボット開発に利用できます。

🚀 クイックスタート

以下のリンクから関連リソースにアクセスできます：

Githubリポジトリ
Huggingfaceスペースデモ

✨ 主な機能

モデルタイプ

この微調整済みのLLaVAモデルは、liuhaotian/llava-pretrain-vicuna-7b-v1.3 をベースに訓練されており、大型マルチモーダルモデルの空間関係推論能力を向上させるために開発されました。

LLaVAは、GPTが生成したマルチモーダル命令追従データでLLaMA/Vicunaを微調整することで得られるオープンソースのチャットボットです。Transformerアーキテクチャに基づく自己回帰型言語モデルです。

想定用途

主な想定用途：LLaVAは主に大型マルチモーダルモデルとチャットボットの研究に使用されます。
主な想定ユーザー：このモデルの主な想定ユーザーは、コンピュータビジョン、自然言語処理、機械学習、人工知能の分野の研究者や愛好家です。

訓練データセット

命令追従訓練には、rogerxi/LLaVA-Spatial-Instruct-850K データセットが使用されました。

評価

10のベンチマークテストセット

モデル	VQAv2	GQA	VizWiz	SQA	TextVQA	POPE	MME	MM - Bench	MM - Bench - cn	MM - Vet
LLaVA - 1.5 - 7b	78.5	62.0	50.0	66.8	58.2	85.9	1510.7	64.3	58.3	31.1
Spatial - LLaVA - 7b	79.7	62.7	48.7	68.7	58.5	87.2	1472.7	67.8	60.7	31.6

Spatial - Relation - Eval（SpatialRGPT - Bench をベースに構築）

定性的な空間関係

モデル	下方/上方	左/右	大/小	高/矮	宽/窄	后/前	平均
LLaVA - 1.5 - 7b	53.91	53.49	45.36	40.00	50.00	51.04	48.97
LLaVA - 1.5 - 13b	54.28	52.32	45.36	48.57	49.02	47.92	49.67
Spatial - LLaVA - 7b	56.32	66.28	60.82	48.57	49.02	52.08	55.12

定量的な空間関係

モデル	直接距離 (m / 比率)	水平距離 (m / 比率)	垂直距離 (m / 比率)	幅 (m / 比率)	高さ (m / 比率)	方向 (¬∞ / 比率)
LLaVA - 1.5 - 7b	12.90 / 0.57	10.68 / 0.62	41.58 / 0.42	22.58 / 1.12	18.25 / 2.92	20.45 / 56.47
LLaVA - 1.5 - 13b	13.71 / 0.93	10.68 / 3.56	16.83 / 0.85	15.32 / 0.57	17.67 / 5.8	14.77 / 54.29
Spatial - LLaVA - 7b	24.19 / 0.57	14.56 / 0.62	41.58 / 0.42	22.58 / 1.12	18.25 / 2.92	20.45 / 56.47

🔧 謝辞

我々は、劉浩天氏らが提供したLLaVA事前訓練スクリプト、重み、およびLLaVA - v1.5混合データセットに感謝します。また、CLEVR、TextCaps、VisualMRC、VQAv2（「HuggingFaceM4/the_cauldron」を通じて）の背後にあるチーム、remyxaiが提供するOpenSpaces、程安傑氏らが提供するSpatial - Benchとデータパイプライン、Googleが提供するOpenImages、Hugging Faceが提供するデータセットインフラストラクチャにも感謝します。