W

Webssl Dino3b Heavy2b 224

facebookによって開発
20億規模の厳選MetaCLIPデータで訓練された30億パラメータの視覚Transformerモデル、DINOv2自己教師あり学習フレームワークを採用
ダウンロード数 26
リリース時間 : 4/25/2025

モデル概要

これは自己教師あり学習で訓練された視覚Transformerモデルで、画像理解タスクに特化しており、特にテキストを含む図表やドキュメント画像の処理に優れています

モデル特徴

厳選データ訓練
元のMetaCLIPデータセットの1.3%のみの高品質データサブセットを使用して訓練、特に読み取り可能なテキストを含む図表、表、ドキュメント画像を含む
自己教師あり学習
DINOv2フレームワークを使用して訓練、言語監督なしで強力な視覚表現を学習
大規模パラメータ
30億パラメータの視覚Transformerアーキテクチャ、複雑な視覚特徴を捉えることが可能
OCR強化
テキストと図表理解に最適化され、他の視覚タスクの性能を維持しながらOCR能力を大幅に向上

モデル能力

画像特徴抽出
視覚表現学習
図表理解
ドキュメント画像分析
OCR関連タスク

使用事例

ドキュメント処理
表認識
スキャンされたドキュメントから表構造と内容を抽出
高精度な表認識能力
図表理解
図表画像を分析しキー情報を抽出
正確な図表内容解析
コンピュータビジョン
画像検索
視覚特徴に基づく画像検索
効率的な画像類似度マッチング
視覚表現学習
下流タスク向けに事前訓練された視覚特徴を提供
強力な転移学習能力
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase