vit_B_16_aion400m_e32_1finetuned - 1オープンソースモデル - ゼロショット画像分類タスクを支援

ホーム

Vit B 16 Aion400m E32 1finetuned 1

Albe-njuptによって開発

OpenCLIPフレームワークに基づくVision Transformerモデルで、ゼロショット画像分類タスク向けにファインチューニングされています

画像分類

Safetensors

オープンソースライセンス:MIT #ゼロショット画像分類 #マルチモーダル事前学習 #効率的な視覚符号化

ダウンロード数 18

リリース時間 : 3/4/2024

モデル概要

このモデルはVision Transformer (ViT)アーキテクチャに基づく視覚言語モデルで、AION-400Mデータセットを使用してトレーニングおよびファインチューニングされており、ゼロショット画像分類タスクに優れています。

モデル特徴

ゼロショット学習能力

特定のカテゴリのトレーニングなしで新しいカテゴリの画像分類が可能

大規模事前学習

AION-400M大規模データセットに基づく事前学習とファインチューニング

視覚言語アライメント

対照学習による画像とテキスト特徴の共同埋め込みを実現

モデル能力

ゼロショット画像分類

画像-テキストマッチング

クロスモーダル検索

使用事例

コンテンツ分類

ソーシャルメディアコンテンツ自動タグ付け

アップロードされた画像に関連タグを自動的に追加

コンテンツ分類効率の向上、手動ラベリングコストの削減

電子商取引

商品画像自動分類

商品画像に基づいて適切なカテゴリに自動分類

商品登録効率の向上、検索体験の最適化

属性	详情
モデルタイプ	vit_B_16_aion400m_e32_1finetuned-1
ライブラリ名	open_clip
パイプラインタグ	zero-shot-image-classification
ライセンス	mit

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Vit B 16 Aion400m E32 1finetuned 1

モデル概要

モデル特徴

モデル能力

使用事例

🚀 vit_B_16_aion400m_e32_1finetuned-1

🚀 クイックスタート

📄 ライセンス