Webssl Dino3b Heavy2b 224
W
Webssl Dino3b Heavy2b 224
facebookによって開発
20億規模の厳選MetaCLIPデータで訓練された30億パラメータの視覚Transformerモデル、DINOv2自己教師あり学習フレームワークを採用
ダウンロード数 26
リリース時間 : 4/25/2025
モデル概要
これは自己教師あり学習で訓練された視覚Transformerモデルで、画像理解タスクに特化しており、特にテキストを含む図表やドキュメント画像の処理に優れています
モデル特徴
厳選データ訓練
元のMetaCLIPデータセットの1.3%のみの高品質データサブセットを使用して訓練、特に読み取り可能なテキストを含む図表、表、ドキュメント画像を含む
自己教師あり学習
DINOv2フレームワークを使用して訓練、言語監督なしで強力な視覚表現を学習
大規模パラメータ
30億パラメータの視覚Transformerアーキテクチャ、複雑な視覚特徴を捉えることが可能
OCR強化
テキストと図表理解に最適化され、他の視覚タスクの性能を維持しながらOCR能力を大幅に向上
モデル能力
画像特徴抽出
視覚表現学習
図表理解
ドキュメント画像分析
OCR関連タスク
使用事例
ドキュメント処理
表認識
スキャンされたドキュメントから表構造と内容を抽出
高精度な表認識能力
図表理解
図表画像を分析しキー情報を抽出
正確な図表内容解析
コンピュータビジョン
画像検索
視覚特徴に基づく画像検索
効率的な画像類似度マッチング
視覚表現学習
下流タスク向けに事前訓練された視覚特徴を提供
強力な転移学習能力
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98