V

Vit Base Patch16 384 Wi5

Imeneによって開発
このモデルはgoogle/vit-base-patch16-384をファインチューニングした視覚Transformerモデルで、主に画像分類タスクに使用されます。
ダウンロード数 21
リリース時間 : 9/6/2022

モデル概要

これはVision Transformerアーキテクチャに基づく画像分類モデルで、patch16-384構成を使用し、特定のデータセットでファインチューニングされています。

モデル特徴

高解像度処理
384x384ピクセルの入力解像度をサポート
効率的なファインチューニング
ベースモデル上で特定タスクに適応するようターゲットを絞ったファインチューニング
混合精度トレーニング
mixed_float16精度を使用したトレーニングで、精度と効率のバランスを実現

モデル能力

画像分類
視覚的特徴抽出

使用事例

コンピュータビジョン
汎用画像分類
入力画像を分類・識別
検証精度49.12%、Top-3精度73.02%
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase