Webssl Dino2b Full2b 224
W
Webssl Dino2b Full2b 224
facebookによって開発
20億パラメータの視覚Transformerモデル、純粋な視覚的教師なし学習により20億のウェブ画像でトレーニングされ、マルチモーダルタスクで優れたパフォーマンスを発揮
ダウンロード数 50
リリース時間 : 4/25/2025
モデル概要
これはDINOv2教師なし学習フレームワークでトレーニングされた20億パラメータの視覚Transformerモデルで、言語監視なしで、さまざまな視覚タスクにおいて言語監視モデルの性能に匹敵またはそれを上回ります
モデル特徴
純粋な視覚的教師なし学習
言語監視なしで、視覚データのみでトレーニング
大規模トレーニング
20億のウェブ画像サンプルでトレーニング
高性能
従来の視覚ベンチマークとマルチモーダルタスクで優れたパフォーマンス
二重アテンション実装
'eager'と'sdpa'の2つのアテンション実装方法をサポート
モデル能力
画像特徴抽出
視覚表現学習
マルチモーダルタスク処理
視覚的質問応答
OCR認識
チャート理解
使用事例
コンピュータビジョン
画像分類
モデルが抽出した画像特徴を利用して分類タスクを実行
言語監視モデルの性能に匹敵またはそれを上回る
物体検出
モデルのパッチトークン特徴を利用して物体位置特定
マルチモーダルアプリケーション
視覚的質問応答
言語モデルと組み合わせて画像内容の質問応答を実現
優れたパフォーマンス
チャート理解
チャート内の視覚情報を解析・理解
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98