W

Webssl Dino2b Full2b 224

facebookによって開発
20億パラメータの視覚Transformerモデル、純粋な視覚的教師なし学習により20億のウェブ画像でトレーニングされ、マルチモーダルタスクで優れたパフォーマンスを発揮
ダウンロード数 50
リリース時間 : 4/25/2025

モデル概要

これはDINOv2教師なし学習フレームワークでトレーニングされた20億パラメータの視覚Transformerモデルで、言語監視なしで、さまざまな視覚タスクにおいて言語監視モデルの性能に匹敵またはそれを上回ります

モデル特徴

純粋な視覚的教師なし学習
言語監視なしで、視覚データのみでトレーニング
大規模トレーニング
20億のウェブ画像サンプルでトレーニング
高性能
従来の視覚ベンチマークとマルチモーダルタスクで優れたパフォーマンス
二重アテンション実装
'eager'と'sdpa'の2つのアテンション実装方法をサポート

モデル能力

画像特徴抽出
視覚表現学習
マルチモーダルタスク処理
視覚的質問応答
OCR認識
チャート理解

使用事例

コンピュータビジョン
画像分類
モデルが抽出した画像特徴を利用して分類タスクを実行
言語監視モデルの性能に匹敵またはそれを上回る
物体検出
モデルのパッチトークン特徴を利用して物体位置特定
マルチモーダルアプリケーション
視覚的質問応答
言語モデルと組み合わせて画像内容の質問応答を実現
優れたパフォーマンス
チャート理解
チャート内の視覚情報を解析・理解
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase