モデル選定

ビジョントランスフォーマー

# ビジョントランスフォーマー

ビジョントランスフォーマーを基にした二値分類モデルで、ディープフェイク画像の検出に特化しており、精度は99.2%

Coco Instance Eomt Large 1280

この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして再解釈する方法を提案し、ViTが画像セグメンテーションタスクで持つ可能性を示しています。

画像セグメンテーション

Ade20k Panoptic Eomt Giant 1280

この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして再解釈する方法を提案し、ViTが画像セグメンテーションタスクで持つ可能性を明らかにしました。

画像セグメンテーション

Ade20k Panoptic Eomt Large 1280

この論文は、Vision Transformer (ViT) に基づく画像セグメンテーションモデルを提案し、ViTが画像セグメンテーションタスクで持つ可能性を明らかにしました。

画像セグメンテーション

Ade20k Panoptic Eomt Large 640

この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして再解釈する方法を提案し、ViTが画像セグメンテーションタスクで持つ可能性を示しています。

画像セグメンテーション

Ade20k Panoptic Eomt Giant 640

このモデルは、Vision Transformer (ViT) が画像セグメンテーションタスクで持つ可能性を明らかにし、特定のアーキテクチャ調整によりセグメンテーションタスクに適応させています。

画像セグメンテーション

Coco Panoptic Eomt Large 640

このモデルは、Vision Transformer (ViT) が画像セグメンテーションタスクにおいて持つ可能性を明らかにし、特定のアーキテクチャ調整によりセグメンテーションタスクに適応させています。

画像セグメンテーション

Coco Instance Eomt Large 640

この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして再解釈する方法を提案し、ViTが画像セグメンテーションタスクで持つ可能性を示しています。

画像セグメンテーション

Coco Panoptic Eomt Giant 1280

このモデルはVision Transformer (ViT)のアーキテクチャを再考することで、画像セグメンテーションタスクにおけるその可能性を示しています。

画像セグメンテーション

Vitpose Plus Huge

ViTPose++はビジョントランスフォーマーを基盤とした人体姿勢推定の基本モデルで、MS COCOキーポイントテストセットで81.1 APという優れた性能を達成しました。

Vitpose Plus Large

ViTPose++はビジョントランスフォーマーに基づく人体姿勢推定の基本モデルで、MS COCOキーポイントテストセットで81.1 APの優れた性能を達成しました。

Vitpose Plus Small

ViTPose++はビジョントランスフォーマーを基盤とした人体姿勢推定モデルで、MS COCOキーポイント検出ベンチマークで81.1 APの優れた性能を達成しました。

Vitpose Base Coco Aic Mpii

ViTPoseはビジョントランスフォーマーをベースとした人体姿勢推定モデルで、シンプルなアーキテクチャ設計によりMS COCOなどのベンチマークで優れた性能を発揮します。

Transformers 英語

ビジョントランスフォーマーを基盤とした人体姿勢推定モデルで、MS COCOキーポイントテストセットで81.1 APの優れた性能を達成

Transformers 英語

Vitpose Base Simple

ViTPoseは標準的なビジョントランスフォーマーを基にした人体姿勢推定ベースラインモデルで、シンプルなアーキテクチャで高性能なキーポイント検出を実現

Transformers 英語

Arabic Large Nougat

アラビア語向けに設計されたエンドツーエンド構造化光学文字認識システムで、書籍ページ画像を構造化テキスト（Markdown形式）に変換できます

画像生成テキスト

Transformers 複数言語対応

Hair Type Image Detection

Google Vision Transformer (ViT)アーキテクチャに基づく画像分類モデルで、顔画像から5種類のヘアスタイル（巻き毛、ドレッドロック、ツイスト、ストレート、ウェービー）を認識するために特別に設計されており、精度は93%に達します。

Sapiens Depth 0.3b Bfloat16

Sapiensは3億枚の1024x1024解像度の人間画像で事前学習されたビジョントランスフォーマーシリーズモデルで、人間中心の視覚タスクに特化しています。

3Dビジョン英語

Sapiens Seg 1b Bfloat16

Sapiensは3億枚の高解像度人間画像で事前学習されたビジョントランスフォーマーモデルで、人間中心の視覚タスクに特化

画像セグメンテーション英語

Sapiensは3億枚の人間画像で事前学習されたビジョントランスフォーマーモデルで、人間中心のセグメンテーションタスクに特化し、1K高解像度推論をサポートします。

画像セグメンテーション英語

Mast3r ViTLarge BaseDecoder 512 Catmlpdpt Metric

MASt3RはViTアーキテクチャに基づく画像から3Dへの変換モデルで、画像と3D空間のマッチングを実現

Skin Types Image Detection

Vision Transformer (ViT)アーキテクチャを使用した顔画像分類モデルで、乾燥肌、普通肌、脂性肌の3つの皮膚タイプを検出

Dpt Swinv2 Base 384

DPT (密な予測トランスフォーマー) モデルは140万枚の画像でトレーニングされ、単眼深度推定に使用されます。このモデルはSwinv2をバックボーンネットワークとして使用し、高精度な深度予測タスクに適しています。

Sign Language Classification V1

Google Vision Transformer (ViT)をファインチューニングした手話分類モデルで、精度は80.56%

Dpt Dinov2 Base Kitti

DINOv2をバックボーンとして使用するDPTフレームワーク、深度推定タスク用

Dpt Dinov2 Small Nyu

DINOv2をバックボーンとして使用したDPTモデルで、深度推定タスクに用いられます。

Nsfw Image Detection

ViTアーキテクチャに基づくNSFW画像分類モデル。ImageNet-21kデータセットで事前学習し、80,000枚の画像でファインチューニングされ、通常コンテンツとNSFWコンテンツを区別します。

Eva02 Base Patch14 224.mim In22k

EVA02ベーシック版視覚表現モデル、マスク画像モデリングによりImageNet-22kで事前学習済み、画像分類と特徴抽出タスクに適しています。

Image Feature Extractor

これはBeitアーキテクチャに基づくビジョンモデルで、製品画像分類タスク向けに特別にファインチューニングされています。

SwinV2はSwin Transformerアーキテクチャに基づくビジョンモデルで、特定のタスクに適応するためにファインチューニングされています。

Upernet Swin Tiny

UperNetはセマンティックセグメンテーションのフレームワークで、Swin Transformerをバックボーンネットワークとして採用し、ピクセルレベルのセマンティックラベル予測を実現できます。

画像セグメンテーション

Transformers 英語

Vit Huge Patch14 224.orig In21k

Vision Transformer (ViT)アーキテクチャに基づく大規模画像特徴抽出モデルで、ImageNet-21kデータセットで事前学習済み

Vit Base Patch16 224.dino

自己教師ありDINO手法で訓練されたVision Transformer（ViT）画像特徴モデルで、画像分類や特徴抽出タスクに適しています。

Vit Base Patch16 224 In21k Finetuned Cifar10 Test

Google Vision Transformer (ViT)ベースモデルをCIFAR-10データセットで微調整したテスト版

Dpt Hybrid Midas

ビジョントランスフォーマー(ViT)に基づく単眼深度推定モデル、140万枚の画像でトレーニング

Segformer B2 Clothes

ATRデータセットでファインチューニングされたSegFormerモデル、服装と人体セグメンテーション用

画像セグメンテーション

Vivit B 16x2 Kinetics400

ViViTはビジョントランスフォーマー(ViT)をビデオ処理向けに拡張したもので、特にビデオ分類タスクに適しています。

ViViTはビジョントランスフォーマー(ViT)をビデオ処理向けに拡張したもので、主にビデオ分類などの下流タスクに使用されます。

MGP-STRは純粋なビジュアルシーンテキスト認識モデルで、マルチグレイン予測により効率的なOCRを実現します。

Vit Base Highways 2

google/vit-base-patch16-224-in21kをファインチューニングしたビジョントランスフォーマーモデル、未知のデータセットで70%の精度を達成

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase