Rgb Language Cap
R
Rgb Language Cap
sadassa17によって開発
これは空間認識能力を備えた視覚言語モデルで、画像内の物体間の空間関係を認識し記述テキストを生成できます。
ダウンロード数 15
リリース時間 : 1/26/2024
モデル概要
このモデルはCOCOデータセットで訓練され、ViTエンコーダーとGPT2デコーダーアーキテクチャを組み合わせ、物体の空間関係を含む画像記述の生成に特化しています。
モデル特徴
空間関係認識
画像内の物体間の空間的方位関係(左右、上下など)を正確に認識し記述できる
構造化出力
出力は常に固定形式:'物体1'は'物体2'の'方位'に位置する、後続処理に適している
軽量デプロイ
4GB GPUメモリのみで動作可能、リソース制約環境に適している
モデル能力
画像理解
空間関係記述生成
複数物体関係分析
使用事例
支援技術
視覚障害者支援
視覚障害者のために空間関係を含む環境記述を生成
ユーザーが物体間の相対位置を理解するのを支援
コンテンツ生成
自動画像注釈
画像に対して空間関係を含む詳細な記述を生成
画像検索と分類の精度向上
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98