Coco Panoptic Eomt Large 1280
MIT
この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして捉える新しい視点を提案し、画像セグメンテーションタスクにおける可能性を探求しています。
画像セグメンテーション
C
tue-mps
119
0
Smart Tv Hand Gestures Image Detection
Apache-2.0
Vision Transformerアーキテクチャに基づくスマートTVジェスチャー認識モデルで、9種類の一般的なジェスチャーを正確に分類できます。
画像分類
Transformers

S
dima806
65
1
Ai Vs Human Generated Image Detection
Apache-2.0
Vision Transformer (ViT)を基にした画像分類モデルで、AI生成画像と人間作成画像を区別し、精度は98%に達します。
画像分類
Transformers

A
dima806
148
2
Ai Image Detector
MIT
このモデルは画像が実写かAI生成かを検出するために設計され、Vision Transformer(ViT)アーキテクチャを採用して高精度な分類を提供します。
画像分類 英語
A
yaya36095
626
1
Vit Base Patch16 Clip 224.metaclip 2pt5b
MetaCLIP-2.5Bデータセットで訓練されたデュアルフレームワーク互換の視覚モデルで、OpenCLIPとtimmフレームワークをサポート
画像分類
V
timm
889
1
Depth Anything Vitb14
Depth Anythingは大規模なラベルなしデータで訓練された深度推定モデルで、単一画像から深度情報を予測できます。
3Dビジョン
Transformers

D
LiheYoung
7,152
3
Vit Base Patch32 224.orig In21k
Apache-2.0
Vision Transformer (ViT)ベースの画像分類モデルで、ImageNet-21kで事前学習されており、特徴抽出やファインチューニングのシナリオに適しています。
画像分類
Transformers

V
timm
438
0
Top 15 Anime Characters Image Detection
Apache-2.0
Vision Transformerアーキテクチャに基づくアニメキャラクター認識モデルで、15種類の人気アニメキャラクターを正確に識別可能、総合精度98.15%。
画像分類
Transformers

T
dima806
27
2
My Food Classifier
Apache-2.0
Google Vision Transformer (ViT)アーキテクチャに基づく食品分類モデルで、未知のデータセットで微調整されています
画像分類
Transformers

M
susnato
24
0
Beit Base Patch16 224 Pt22k Ft22k Finetuned FER2013 7e 05
Apache-2.0
FER2013データセットで微調整されたMicrosoft BEiTモデルに基づく顔表情認識モデル
画像分類
Transformers

B
lixiqi
19
0
Beit Base Patch16 224 Pt22k Ft22k Finetuned FER2013 0.0001
Apache-2.0
BEiTアーキテクチャに基づく画像分類モデルで、FER2013データセットで微調整され、顔表情認識タスクに使用されます
画像分類
Transformers

B
lixiqi
18
0
Vit Base Patch16 224 In21k Lung Cancer
Apache-2.0
このモデルはGoogleのViT(Vision Transformer)基本アーキテクチャを未知のデータセットでファインチューニングしたバージョンで、肺関連画像解析タスクに使用される可能性があります。
画像分類
Transformers

V
MadhuG
28
0
Vit Classification Huggingface
Hugging Face Vision TransformerベースのAnimal-10データセット分類モデル、精度98.09%達成
画像分類
Transformers

V
pytholic
14
0
PANDA ViT
PANDA_ViTはVision Transformer(ViT)アーキテクチャに基づく医用画像分類モデルで、前立腺組織病理画像のISUPグレーディング専用に設計されています。
画像分類
Transformers

P
smc
32
2
Yolos Small 300
Apache-2.0
COCO 2017物体検出データセットでファインチューニングされたYOLOS小型モデル、Vision Transformerアーキテクチャを使用した効率的な物体検出
物体検出
Transformers

Y
hustvl
86
6
Yolos Small Dwr
Apache-2.0
COCO 2017物体検出データセットでファインチューニングされたYOLOSモデル、Vision Transformerアーキテクチャを採用し、物体検出タスクに適しています。
物体検出
Transformers

Y
hustvl
33
4
Yolos Tiny
Apache-2.0
COCO 2017物体検出データセットでファインチューニングされたYOLOSモデル、Vision Transformerアーキテクチャを使用した効率的な物体検出を実現。
物体検出
Transformers

Y
hustvl
144.58k
266
Vit Base Cifar10
Apache-2.0
ViTアーキテクチャに基づきCIFAR10データセットでファインチューニングされた画像分類モデル
画像分類
Transformers

V
thapasushil
36
1
Beit Base Patch16 224
Apache-2.0
BEiTはVision Transformerベースのモデルで、自己教師あり学習によりImageNet-21kで事前学習され、ImageNet-1kでファインチューニングされた画像分類タスク用モデルです。
画像分類
B
microsoft
58.34k
9
Beit Large Patch16 224
Apache-2.0
BEiTはVision Transformer(ViT)アーキテクチャに基づく画像分類モデルで、自己教師あり学習によりImageNet-21kで事前学習され、ImageNet-1kでファインチューニングされています。
画像分類
B
microsoft
222.46k
1
Dino Vitb8
Apache-2.0
DINO手法による自己教師あり学習で訓練されたVision Transformerモデル、8x8画像パッチ処理を採用、画像特徴抽出タスクに適応
画像分類
Transformers

D
facebook
1,664
18
Dino Vits8
Apache-2.0
DINO手法に基づく自己教師あり学習で訓練されたVision Transformerモデル。8x8画像パッチ処理を使用し、画像特徴抽出タスクに適しています
画像分類
Transformers

D
facebook
106.97k
12
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98