B

Beit Base Finetuned Ade 640 640

microsoftによって開発
BEiTは、ビジュアルTransformer(ViT)アーキテクチャに基づくモデルで、自己教師付き学習によりImageNet - 21kで事前学習され、ADE20kデータセットで微調整され、画像セマンティックセグメンテーションタスクに特化しています。
ダウンロード数 1,645
リリース時間 : 3/2/2022

モデル概要

BEiTモデルは、BERTライクのTransformerエンコーダアーキテクチャを採用し、マスク画像パッチ予測により事前学習され、高解像度画像のセマンティックセグメンテーションをサポートし、シーン解析などのコンピュータビジョンタスクに適しています。

モデル特徴

自己教師付き事前学習
ImageNet - 21kデータセットを使用して、マスク画像パッチ予測により事前学習し、画像の内在的な表現を学習します。
高解像度微調整
ADE20kデータセットで640x640の解像度で微調整し、セマンティックセグメンテーションの性能を最適化します。
相対位置エンコーディング
T5のような相対位置エンコーディングを採用し、絶対位置エンコーディングではなく、モデルの柔軟性を向上させます。

モデル能力

画像セマンティックセグメンテーション
シーン解析
ビジュアル特徴抽出

使用事例

コンピュータビジョン
建物シーン解析
家や城などの建物を含む画像をセマンティックセグメンテーションし、異なる物体の領域を識別します。
ADE20kベンチマークデータセットで最先端の結果を達成します。
都市景観分析
都市の通りの画像を解析し、道路、車、歩行者などの要素を識別します。
CityScapesなどのデータセットで優れた性能を発揮します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase