R

Rgb Language Cap

sadassa17によって開発
これは空間認識能力を備えた視覚言語モデルで、画像内の物体間の空間関係を認識し記述テキストを生成できます。
ダウンロード数 15
リリース時間 : 1/26/2024

モデル概要

このモデルはCOCOデータセットで訓練され、ViTエンコーダーとGPT2デコーダーアーキテクチャを組み合わせ、物体の空間関係を含む画像記述の生成に特化しています。

モデル特徴

空間関係認識
画像内の物体間の空間的方位関係(左右、上下など)を正確に認識し記述できる
構造化出力
出力は常に固定形式:'物体1'は'物体2'の'方位'に位置する、後続処理に適している
軽量デプロイ
4GB GPUメモリのみで動作可能、リソース制約環境に適している

モデル能力

画像理解
空間関係記述生成
複数物体関係分析

使用事例

支援技術
視覚障害者支援
視覚障害者のために空間関係を含む環境記述を生成
ユーザーが物体間の相対位置を理解するのを支援
コンテンツ生成
自動画像注釈
画像に対して空間関係を含む詳細な記述を生成
画像検索と分類の精度向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase