clip-vit-base-patch32_stanford-carsオープンソースの視覚分類モデル - スタンフォードの自動車のクラスを正確に識別する

Home

Clip Vit Base Patch32 Stanford Cars

Developed by tanganke

CLIP視覚トランスフォーマーアーキテクチャに基づき、スタンフォード自動車データセットでファインチューニングされた視覚分類モデル

画像分類

Transformers

#自動車画像認識 #ViTファインチューニング #CLIP視覚エンコーディング

Downloads 4,143

Release Time : 4/28/2024

Model Overview

このモデルはOpenAI CLIP視覚エンコーダーのスタンフォード自動車データセットでのファインチューニング版で、自動車画像分類タスク専用です。

Model Features

専門分野ファインチューニング

スタンフォード自動車データセットでファインチューニングされ、自動車分類精度が大幅に向上

効率的な視覚エンコーディング

ViTアーキテクチャに基づき、32x32ピクセルブロックで画像を処理

モジュール設計

視覚エンコーダーを単独で使用、または完全なCLIPモデルに統合可能

Model Capabilities

自動車画像分類

視覚特徴抽出

細粒度画像認識

Use Cases

自動車業界

自動車モデル識別

画像中の自動車のブランドとモデルを識別

精度78.19%

中古車評価

画像を通じて自動的に車両特徴を識別

小売

自動車EC検索

画像で類似車両を検索

🚀 ビジョンモデルの微調整

このプロジェクトは、CLIPモデルのビジョンエンコーダを微調整するものです。特定のデータセットを用いてモデルを訓練し、評価結果を向上させます。

🚀 クイックスタート

このモデルを使うには、以下の手順に従ってください。

ビジョンモデルの読み込み

from transformers import CLIPVisionModel

vision_model = CLIPVisionModel.from_pretrained('tanganke/clip-vit-base-patch32_stanford-cars')

CLIPモデルのビジョンエンコーダの置き換え

from transformers import CLIPModel

clip_model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
clip_model.vision_model.load_state_dict(vision_model.vision_model.state_dict())

✨ 主な機能

特定のデータセットを用いたCLIPモデルのビジョンエンコーダの微調整
微調整前後の精度評価

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

from transformers import CLIPVisionModel

vision_model = CLIPVisionModel.from_pretrained('tanganke/clip-vit-base-patch32_stanford-cars')

高度な使用法

from transformers import CLIPModel

clip_model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
clip_model.vision_model.load_state_dict(vision_model.vision_model.state_dict())