Webssl Dino3b Full2b 224
W
Webssl Dino3b Full2b 224
Developed by facebook
これはDINOv2自己教師あり学習により20億のウェブ画像でトレーニングされた30億パラメータの視覚Transformerモデルで、言語監督なしで強力な視覚表現を学習できます。
Downloads 72
Release Time : 4/25/2025
Model Overview
このモデルは純粋な視覚学習が様々な視覚タスクで言語監督モデルの性能に匹敵またはそれを超えることを証明し、従来の視覚ベンチマークやマルチモーダルタスクに適しています。
Model Features
大規模自己教師あり学習
20億のウェブ画像でトレーニングされ、言語監督なしで強力な視覚表現を学習
高性能視覚モデル
様々な視覚タスクで言語監督モデルの性能に匹敵またはそれを超える
マルチタスク適応性
従来の視覚ベンチマークや視覚質問応答、OCR、図表理解などのマルチモーダルタスクに適用可能
Model Capabilities
画像特徴抽出
視覚表現学習
マルチモーダルタスク処理
Use Cases
コンピュータビジョン
画像分類
画像分類タスクに使用
従来の視覚ベンチマークで優れた性能を発揮
視覚質問応答
視覚的理解を必要とする質問応答タスクを処理
ドキュメント分析
OCR
光学文字認識アプリケーション
図表理解
図表の内容を解析・理解
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98