モデル選定

視覚Transformer

# 視覚Transformer

Coco Panoptic Eomt Giant 640

この論文が提案するモデルは、Vision Transformer (ViT)が画像セグメンテーションタスクで持つ潜在能力を明らかにしています。

画像セグメンテーション

Ade20k Semantic Eomt Large 512

このモデルは論文『あなたのViTは実際には画像セグメンテーションモデル』に基づいて開発され、画像セグメンテーションタスクのための視覚Transformerモデルです。

画像セグメンテーション

Cityscapes Semantic Eomt Large 1024

このモデルはVision Transformer (ViT)が画像分割タスクで持つ可能性を明らかにし、特定の方法でViTを効率的な画像分割モデルに変換します。

画像セグメンテーション

Vitpose Plus Base

ViTPoseは視覚Transformerベースの人体姿勢推定モデルで、シンプルな設計によりMS COCOキーポイント検出ベンチマークで81.1 APの優れた性能を達成しました。

Transformers 英語

Vitpose Base Simple

ViTPoseは視覚Transformerベースの人体姿勢推定モデルで、MS COCOキーポイントテストセットで81.1 APの精度を達成し、モデルの簡潔さ、スケーラビリティ、トレーニングの柔軟性などの利点があります

Transformers 英語

Aimv2 3b Patch14 448.apple Pt

AIM-v2はtimmライブラリに基づく画像エンコーダーモデルで、3Bパラメータ規模を持ち、画像特徴抽出タスクに適しています。

Aimv2 3b Patch14 336.apple Pt

AIM-v2はtimmライブラリに基づく画像エンコーダーモデルで、画像特徴抽出タスクに適しています。

Dinov2 With Registers Giant

これはDINOv2ベースの視覚Transformerモデルで、レジスタトークンを追加することでアテンション機構を改良し、教師なし画像特徴抽出に使用されます。

Vit Base Patch16 Clip 224.metaclip 400m

MetaCLIP-400Mデータセットで訓練されたデュアルフレームワーク互換の視覚モデルで、OpenCLIPとtimmフレームワークをサポート

Sapiens Depth 0.3b

智人（Sapiens）は30億枚の高解像度人間画像で事前学習された視覚Transformerモデルで、人間中心の視覚タスクに特化しています。

3Dビジョン英語

Sapiens Depth 0.6b

Sapiensは3億枚の1024x1024解像度の人間画像で事前学習された視覚Transformerモデルファミリーで、人間中心の視覚タスクに特化しています。

3Dビジョン英語

Sapiens Pretrain 0.6b

Sapiensは3億枚の1024×1024解像度人体画像で事前学習された視覚Transformerモデルで、人間中心の視覚タスクに優れています。

画像分類英語

Sapiens Seg 0.6b Torchscript

Sapiensは3億枚の1024x1024解像度の人間画像で事前学習された視覚Transformerモデルファミリーで、人間中心の視覚タスクに特化しています。

画像セグメンテーション英語

Indian Sign Language Classification

Google Vision Transformer (ViT)アーキテクチャを基にファインチューニングしたインド手話画像分類モデルで、精度は99.05%

75 Butterfly Types Image Detection

Vision Transformerアーキテクチャに基づく蝶画像分類モデル。75種の蝶を識別可能で、精度は96.74%

Aesthetic Shadow

美学シャドウは11億パラメータを持つ視覚Transformerモデルで、アニメ画像の品質評価のために設計されました。

Eva02 Large Patch14 224.mim M38m

EVA02特徴/表現モデル、マスク画像モデリングによりMerged-38Mデータセットで事前学習済み、画像分類と特徴抽出タスクに適しています。

My Food Classifier

google/vit-base-patch16-224-in21kをファインチューニングした食品分類モデルで、評価データセットで優れた性能を発揮

Efficientformer L1 300

EfficientFormer-L1はSnap Researchが開発した視覚Transformerモデルで、モバイルデバイス向けに最適化されており、高性能を維持しながら極めて低い遅延を実現します。

画像分類英語

Vit Msn Large 7

この視覚TransformerモデルはMSN手法で事前学習されており、少数ショットシナリオで優れた性能を発揮し、画像分類などのタスクに適しています

この視覚TransformerモデルはMSN手法で事前学習されており、少数ショットシナリオで優れた性能を発揮し、画像分類などのタスクに適しています

MSN手法で事前学習された視覚Transformerモデルで、少数ショットシナリオで優れた性能を発揮

この視覚TransformerモデルはMSN手法で事前学習されており、少数ショット学習シナリオに適しており、特に画像分類タスクに最適です。

Vit Base Patch16 384 Wi5

このモデルはgoogle/vit-base-patch16-384をファインチューニングした視覚Transformerモデルで、主に画像分類タスクに使用されます。

Swinv2 Large Patch4 Window12 192 22k

Swin Transformer v2は、階層的特徴マップと局所ウィンドウ自己注意メカニズムにより、効率的な画像分類と密な認識タスクを実現する視覚Transformerモデルです。

視覚Transformer（ViT）ベースの物体検出モデルで、DETR損失関数を使用して訓練され、COCOデータセットで優れた性能を発揮します。

Deit Base Distilled Patch16 384

蒸留版視覚Transformerモデル、最初に224x224解像度で事前学習し、その後384x384解像度でImageNet-1k上でファインチューニング、教師モデルから蒸留トークンを通じて学習。

Deit FaceMask Finetuned

Face-Mask18Kデータセットで訓練された蒸留型視覚Transformerモデル、効率的なマスク検出用

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase