Dinov2 With Registers Base
DINOv2でトレーニングされた視覚Transformerモデルで、レジスタトークンを追加することでアテンションメカニズムを最適化し、特徴抽出能力を向上
ダウンロード数 22.74k
リリース時間 : 12/20/2024
モデル概要
このモデルはレジスタを備えた視覚Transformer(ViT)のベース版で、DINOv2メソッドを使用した自己教師ありトレーニングにより、画像から高品質の特徴表現を抽出でき、さまざまなコンピュータビジョンタスクに適しています。
モデル特徴
レジスタメカニズム
専用のレジスタトークンを追加することでアテンションマップのアーティファクトを除去し、より明確なアテンション分布を獲得
自己教師あり学習
DINOv2メソッドを使用してトレーニングされ、注釈データなしで意味のある画像特徴表現を学習可能
アテンション最適化
改良されたアテンションメカニズムにより、より解釈可能なアテンションマップを提供し、モデルの意思決定プロセスの理解に役立つ
モデル能力
画像特徴抽出
自己教師あり学習
コンピュータビジョンタスクのベースモデル
使用事例
コンピュータビジョン
画像分類
ベースモデルとして使用可能で、分類ヘッドを追加して画像分類タスクを実行
物体検出
抽出された画像特徴は物体検出タスクに使用可能
画像類似度計算
抽出された特徴ベクトルを使用して画像間の類似度を計算
おすすめAIモデル
Qwen2.5 VL 7B Abliterated Caption It I1 GGUF
Apache-2.0
Qwen2.5-VL-7B-Abliterated-Caption-itの量子化バージョンで、多言語画像記述タスクをサポートします。
画像生成テキスト
Transformers 複数言語対応

Q
mradermacher
167
1
Nunchaku Flux.1 Dev Colossus
その他
Colossus Project FluxのNunchaku量子化バージョンで、テキストプロンプトに基づいて高品質な画像を生成することを目的としています。このモデルは、推論効率を最適化しながら、性能損失を最小限に抑えます。
画像生成 英語
N
nunchaku-tech
235
3
Qwen2.5 VL 7B Abliterated Caption It GGUF
Apache-2.0
これはQwen2.5-VL-7Bモデルに基づく静的量子化バージョンで、画像記述生成タスクに特化し、複数の言語をサポートしています。
画像生成テキスト
Transformers 複数言語対応

Q
mradermacher
133
1
Olmocr 7B 0725 FP8
Apache-2.0
olmOCR-7B-0725-FP8は、Qwen2.5-VL-7B-Instructモデルをベースに、olmOCR-mix-0225データセットで微調整した後、FP8バージョンに量子化した文書OCRモデルです。
画像生成テキスト
Transformers 英語

O
allenai
881
3
Lucy 128k GGUF
Apache-2.0
Lucy-128kはQwen3 - 1.7Bをベースに開発された、プロキシ型ネットワーク検索と軽量ブラウジングに特化したモデルで、モバイルデバイスでも効率的に動作します。
大規模言語モデル
Transformers 英語

L
Mungert
263
2