T

Taiyi Vit 87M D

IDEA-CCNLによって開発
COCOとVisual Genomeデータセットを使用した特別な事前学習を行った英語版MAPビジュアルエンコーダー、ViT-baseアーキテクチャを採用
ダウンロード数 24
リリース時間 : 5/4/2022

モデル概要

このモデルはCLIP-ViT-baseアーキテクチャに基づくビジュアルエンコーダーで、特別な学習タスクを通じてマルチモーダル情報を注入し、画像分類などの視覚タスクに適しています

モデル特徴

特別な事前学習手法
新しい事前学習方法Dを採用し、特別な学習タスクを通じてマルチモーダル情報を注入
高性能
CIFAR10やImageNet1kなどのベンチマークテストで元のCLIP-ViT-baseモデルを上回る性能
マルチモーダル表現
MSCOCOとVGデータセットからの事前学習データにより、マルチモーダル理解能力を備えている

モデル能力

画像分類
視覚的特徴抽出
マルチモーダル表現学習

使用事例

コンピュータビジョン
画像分類
入力画像を分類し、ImageNetの1000クラス分類タスクをサポート
ImageNet1kで82.4%の精度を達成
視覚的特徴抽出
画像の高レベルな視覚的特徴を抽出し、下流タスクに利用可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase