cvt-21-384-22kオープンソースビジョンモデル - 畳み込みとTransformerを組み合わせた高精度な画像認識

ホーム

Cvt 21 384 22k

microsoftによって開発

CvT-21は畳み込みとTransformerアーキテクチャを組み合わせた視覚モデルで、ImageNet-22kで事前学習され、ImageNet-1kでファインチューニングされています

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #高解像度画像分類 #畳み込み強化Transformer #ImageNet-22k事前学習

ダウンロード数 134

リリース時間 : 4/4/2022

モデル概要

このモデルは畳み込み操作を導入することで視覚Transformerを改良し、384x384解像度で効率的な画像分類タスクを実現します

モデル特徴

畳み込みとTransformerの融合

畳み込み操作を導入することで従来の視覚Transformerを改良し、局所的特徴抽出能力を向上させます

高解像度処理

384x384解像度の画像入力をサポートし、高精度分類タスクに適しています

大規模事前学習

ImageNet-22kデータセットで事前学習されており、強力な特徴抽出能力を持ちます

モデル能力

画像分類

視覚的特徴抽出

使用事例

コンピュータビジョン

物体認識

画像中の物体カテゴリを識別（動物、日用品など）

ImageNet-1kの1000カテゴリを正確に分類可能

シーン分類

複雑なシーンを分類（自然風景、建築物など）

属性	详情
モデルタイプ	畳み込みビジョントランスフォーマー (CvT)
学習データ	ImageNet-22k、ImageNet-1k

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Cvt 21 384 22k

モデル概要

モデル特徴

モデル能力

使用事例

🚀 畳み込みビジョントランスフォーマー (CvT)

🚀 クイックスタート

💻 使用例

基本的な使用法

📄 ライセンス