Webssl Dino2b Heavy2b 224
W
Webssl Dino2b Heavy2b 224
Developed by facebook
20億パラメータの自己教師あり視覚Transformerモデル、厳選されたウェブ画像データでトレーニングされ、特に図表とテキスト理解能力を最適化
Downloads 24
Release Time : 4/25/2025
Model Overview
これは自己教師あり学習によって厳選されたウェブスケールの画像データでトレーニングされた視覚Transformerモデルで、特に図表、表、読み取り可能な文書に最適化されており、OCRや図表理解タスクで優れた性能を発揮します
Model Features
厳選されたトレーニングデータ
元のMetaCLIPデータセットの1.3%のみの高品質画像サブセットを使用してトレーニングされ、特に図表、表、読み取り可能な文書を含む
自己教師あり学習
DINOv2自己教師あり学習手法を採用し、言語監督なしで強力な視覚表現を学習
大規模パラメータ
20億パラメータの視覚Transformerアーキテクチャにより、強力な特徴抽出能力を提供
OCR能力の最適化
テキストと図表理解に特に最適化され、関連タスクで顕著な性能を発揮
Model Capabilities
画像特徴抽出
視覚表現学習
図表理解
テキスト検出
表認識
Use Cases
文書処理
表認識
画像から表の構造と内容を抽出
高精度な表検出と認識
OCR強化
画像内のテキスト認識精度を向上
複雑な背景でのテキスト認識性能向上
視覚理解
図表分析
画像内の様々な図表タイプとデータを理解
正確な図表分類とデータ抽出
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98