W

Webssl Dino2b Heavy2b 224

Developed by facebook
20億パラメータの自己教師あり視覚Transformerモデル、厳選されたウェブ画像データでトレーニングされ、特に図表とテキスト理解能力を最適化
Downloads 24
Release Time : 4/25/2025

Model Overview

これは自己教師あり学習によって厳選されたウェブスケールの画像データでトレーニングされた視覚Transformerモデルで、特に図表、表、読み取り可能な文書に最適化されており、OCRや図表理解タスクで優れた性能を発揮します

Model Features

厳選されたトレーニングデータ
元のMetaCLIPデータセットの1.3%のみの高品質画像サブセットを使用してトレーニングされ、特に図表、表、読み取り可能な文書を含む
自己教師あり学習
DINOv2自己教師あり学習手法を採用し、言語監督なしで強力な視覚表現を学習
大規模パラメータ
20億パラメータの視覚Transformerアーキテクチャにより、強力な特徴抽出能力を提供
OCR能力の最適化
テキストと図表理解に特に最適化され、関連タスクで顕著な性能を発揮

Model Capabilities

画像特徴抽出
視覚表現学習
図表理解
テキスト検出
表認識

Use Cases

文書処理
表認識
画像から表の構造と内容を抽出
高精度な表検出と認識
OCR強化
画像内のテキスト認識精度を向上
複雑な背景でのテキスト認識性能向上
視覚理解
図表分析
画像内の様々な図表タイプとデータを理解
正確な図表分類とデータ抽出
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase