モデル選定

Vision Transformer

# Vision Transformer

Coco Panoptic Eomt Large 1280

この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして捉える新しい視点を提案し、画像セグメンテーションタスクにおける可能性を探求しています。

画像セグメンテーション

Smart Tv Hand Gestures Image Detection

Vision Transformerアーキテクチャに基づくスマートTVジェスチャー認識モデルで、9種類の一般的なジェスチャーを正確に分類できます。

Ai Vs Human Generated Image Detection

Vision Transformer (ViT)を基にした画像分類モデルで、AI生成画像と人間作成画像を区別し、精度は98%に達します。

Ai Image Detector

このモデルは画像が実写かAI生成かを検出するために設計され、Vision Transformer（ViT）アーキテクチャを採用して高精度な分類を提供します。

画像分類英語

Vit Base Patch16 Clip 224.metaclip 2pt5b

MetaCLIP-2.5Bデータセットで訓練されたデュアルフレームワーク互換の視覚モデルで、OpenCLIPとtimmフレームワークをサポート

Depth Anything Vitb14

Depth Anythingは大規模なラベルなしデータで訓練された深度推定モデルで、単一画像から深度情報を予測できます。

Vit Base Patch32 224.orig In21k

Vision Transformer (ViT)ベースの画像分類モデルで、ImageNet-21kで事前学習されており、特徴抽出やファインチューニングのシナリオに適しています。

Top 15 Anime Characters Image Detection

Vision Transformerアーキテクチャに基づくアニメキャラクター認識モデルで、15種類の人気アニメキャラクターを正確に識別可能、総合精度98.15%。

My Food Classifier

Google Vision Transformer (ViT)アーキテクチャに基づく食品分類モデルで、未知のデータセットで微調整されています

Beit Base Patch16 224 Pt22k Ft22k Finetuned FER2013 7e 05

FER2013データセットで微調整されたMicrosoft BEiTモデルに基づく顔表情認識モデル

Beit Base Patch16 224 Pt22k Ft22k Finetuned FER2013 0.0001

BEiTアーキテクチャに基づく画像分類モデルで、FER2013データセットで微調整され、顔表情認識タスクに使用されます

Vit Base Patch16 224 In21k Lung Cancer

このモデルはGoogleのViT（Vision Transformer）基本アーキテクチャを未知のデータセットでファインチューニングしたバージョンで、肺関連画像解析タスクに使用される可能性があります。

Vit Classification Huggingface

Hugging Face Vision TransformerベースのAnimal-10データセット分類モデル、精度98.09%達成

PANDA_ViTはVision Transformer（ViT）アーキテクチャに基づく医用画像分類モデルで、前立腺組織病理画像のISUPグレーディング専用に設計されています。

Yolos Small 300

COCO 2017物体検出データセットでファインチューニングされたYOLOS小型モデル、Vision Transformerアーキテクチャを使用した効率的な物体検出

Yolos Small Dwr

COCO 2017物体検出データセットでファインチューニングされたYOLOSモデル、Vision Transformerアーキテクチャを採用し、物体検出タスクに適しています。

COCO 2017物体検出データセットでファインチューニングされたYOLOSモデル、Vision Transformerアーキテクチャを使用した効率的な物体検出を実現。

Vit Base Cifar10

ViTアーキテクチャに基づきCIFAR10データセットでファインチューニングされた画像分類モデル

Beit Base Patch16 224

BEiTはVision Transformerベースのモデルで、自己教師あり学習によりImageNet-21kで事前学習され、ImageNet-1kでファインチューニングされた画像分類タスク用モデルです。

Beit Large Patch16 224

BEiTはVision Transformer(ViT)アーキテクチャに基づく画像分類モデルで、自己教師あり学習によりImageNet-21kで事前学習され、ImageNet-1kでファインチューニングされています。

DINO手法による自己教師あり学習で訓練されたVision Transformerモデル、8x8画像パッチ処理を採用、画像特徴抽出タスクに適応

DINO手法に基づく自己教師あり学習で訓練されたVision Transformerモデル。8x8画像パッチ処理を使用し、画像特徴抽出タスクに適しています

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase