M

Mit Indoor Scenes

vincentclaesによって開発
Vision Transformerアーキテクチャに基づく画像分類モデルで、ImageNet-21kデータセットで事前学習され、MIT室内シーンデータセットでファインチューニングされています
ダウンロード数 14
リリース時間 : 3/7/2022

モデル概要

このモデルはVision Transformerアーキテクチャを使用し、特に室内シーン認識に最適化された画像分類タスク専用です。

モデル特徴

Transformerベースの視覚モデル
自然言語処理で成功したTransformerアーキテクチャをコンピュータビジョンタスクに適用
大規模事前学習
ImageNet-21kデータセットで事前学習、1400万枚の画像と21000クラスを含む
ドメイン特化ファインチューニング
MIT室内シーンデータセットでファインチューニングし、室内シーン認識能力を最適化
効率的な画像処理
16x16画像パッチを入力として使用し、計算効率とモデル性能をバランス

モデル能力

画像分類
シーン認識
室内環境分析

使用事例

スマートホーム
部屋タイプ認識
カメラで撮影した部屋のタイプ(寝室、キッチン、リビングなど)を自動認識
スマートホームシステムの自動シーン設定に利用可能
不動産
不動産写真分類
不動産写真中の部屋タイプを自動分類
不動産プラットフォームの写真管理効率を向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase