モデル選定

224x224解像度

# 224x224解像度

PVTはTransformerベースの視覚モデルで、ピラミッド構造を使用して画像を処理し、ImageNet-1Kで事前学習されており、画像分類タスクに適しています。

Microsoft Resnet 152 Plant Seedling Classification

ResNet-152を微調整した植物の苗分類モデルで、テストセットでの精度は77.67%

Convnext Tiny Finetuned Cifar10

このモデルはConvNeXTアーキテクチャのミニバージョンで、cifar10データセットでファインチューニングされており、画像分類タスクに適しています。

LeViT-128SはImageNet-1kデータセットで事前学習された視覚Transformerモデルで、畳み込みネットワークの利点を組み合わせてより高速な推論を実現しています。

LeViT-384はImageNet-1kデータセットで事前学習された視覚Transformerモデルで、畳み込みネットワークの利点を組み合わせてより高速な推論を実現しています。

ResNet-50はImageNet-1kで事前学習された残差ネットワークモデルで、v1.5アーキテクチャの改良を採用し、画像分類タスクに適しています。

ImageNet-1kデータセットで事前学習された深層残差ネットワークモデル、画像分類タスク用

Vit Base Patch32 224 In21k

このビジュアルトランスフォーマー（ViT）モデルは、ImageNet-21kデータセットで224x224解像度で事前学習されており、画像分類タスクに適しています。

Convnext Xlarge 224 22k

ConvNeXTは純粋な畳み込みモデルで、その設計は視覚Transformerからインスピレーションを得ており、視覚Transformerよりも優れた性能を主張しています。このモデルはImageNet-22kデータセットで224x224解像度で学習されています。

Vit Large Patch32 224 In21k

このビジュアルTransformer（ViT）モデルは、ImageNet-21kデータセットで事前学習され、画像分類タスクに適しています。

Convnext Base 224 22k

ConvNeXTは純粋な畳み込みモデルで、その設計は視覚Transformerからインスピレーションを得ており、視覚Transformerよりも優れた性能を主張しています。このモデルは224x224解像度でImageNet-22kデータセットを用いて学習されました。

Beit Large Patch16 224 Pt22k

BEiTはビジュアルTransformer（ViT）に基づく自己監督学習モデルで、ImageNet - 21kデータセットで事前学習され、画像分類タスクに使用されます。

Vit Huge Patch14 224 In21k

ImageNet-21kで事前学習されたビジュアルTransformerモデルで、超大サイズのアーキテクチャを採用し、画像分類などのビジュアルタスクに適しています。

Deit Base Distilled Patch16 224

蒸留版高効率データ画像Transformer（DeiT）モデルは、ImageNet-1kで224x224解像度で事前学習と微調整が行われ、蒸留学習によって教師モデルから知識を抽出します。

Beit Large Patch16 224 Pt22k Ft22k

BEiTは視覚Transformer（ViT）ベースの画像分類モデルで、自己教師あり方式でImageNet-22kで事前学習され、同じデータセットでファインチューニングされています。

Vit Large Patch16 224 In21k

ImageNet-21kデータセットで事前学習されたVision Transformerモデルで、画像特徴抽出や下流タスクのファインチューニングに適しています。

Convnext Large 224

ConvNeXTは純粋な畳み込みモデルで、視覚Transformerからインスピレーションを得た設計で、ImageNet-1kデータセットで224x224解像度でトレーニングされました。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase