B

Beit Large Finetuned Ade 640 640

microsoftによって開発
BEiTはビジョントランスフォーマーアーキテクチャに基づく画像セグメンテーションモデルで、自己教師あり事前学習とADE20kデータセットによるファインチューニングにより効率的なセマンティックセグメンテーションを実現します。
ダウンロード数 14.97k
リリース時間 : 3/2/2022

モデル概要

このモデルはBERT風のトランスフォーマーエンコーダーアーキテクチャを採用し、画像セマンティックセグメンテーションタスク向けに設計されており、ADE20kなどのベンチマークデータセットで優れた性能を発揮します。

モデル特徴

自己教師あり事前学習
ImageNet-21kでマスク画像ブロック予測タスクによる事前学習を行い、汎用的な視覚表現を学習
高解像度ファインチューニング
ADE20kデータセットで640x640解像度にファインチューニングし、セマンティックセグメンテーションタスクに適応
相対位置エンコーディング
絶対位置エンコーディングではなくT5風の相対位置エンコーディングを採用し、位置認識能力を向上

モデル能力

画像セマンティックセグメンテーション
シーン理解
視覚的特徴抽出

使用事例

コンピュータビジョン
建築シーン解析
家屋、城などの建築シーンをピクセルレベルでセマンティックセグメンテーション
ADE20kデータセットでSOTA効果を達成
都市景観分析
都市環境における道路、建物、植生などの要素を識別
CityScapesなどのベンチマークテストで優れた性能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase