オープンソースのLLaVA-SpaceSGG視覚質問応答モデル - 画像に対する構造化シーン記述の生成

ホーム

Llava SpaceSGG

wumengyangokによって開発

LLaVA-SpaceSGGはLLaVA-v1.5-13bをベースとした視覚質問応答モデルで、シーングラフ生成タスクに特化しており、画像内容を理解し構造化されたシーン記述を生成できます。

テキスト生成画像

Safetensors

英語オープンソースライセンス:Apache-2.0 #視覚シーン理解 #マルチモーダル質問応答 #シーングラフ生成

ダウンロード数 36

リリース時間 : 12/10/2024

モデル概要

このモデルは視覚と言語処理能力を組み合わせ、画像内容を分析してシーングラフを生成し、構造化された視覚理解が必要なシナリオに適しています。

モデル特徴

マルチモーダル理解

視覚と言語処理能力を組み合わせ、画像内容を理解し構造化された記述を生成できます。

シーングラフ生成

画像からオブジェクトとその関係を抽出し、構造化されたシーングラフを生成することに特化しています。

LLaVAベースの拡張

LLaVA-v1.5-13bをベースに最適化され、シーン理解タスクに特化しています。

モデル能力

画像内容理解

視覚質問応答

シーングラフ生成

マルチモーダル推論

使用事例

コンピュータビジョン

インテリジェント画像分析

画像内容を自動分析し構造化されたシーン記述を生成

画像検索、内容理解などのアプリケーションに利用可能

ヒューマンコンピュータインタラクション

視覚質問応答システム

画像内容に関する自然言語質問に回答

人と機械のインタラクションの自然さと正確性を向上

属性	详情
ベースモデル	liuhaotian/llava - v1.5 - 13b
パイプラインタグ	視覚的質問応答

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Llava SpaceSGG

モデル概要

モデル特徴

モデル能力

使用事例

🚀 LLaVA - SpaceSGG

🚀 クイックスタート

📚 ドキュメント

📄 ライセンス

📦 モデル情報