vit_huge_patch14_clip_224.laion2bオープンソースビジュアルモデル

ホーム

Vit Huge Patch14 Clip 224.laion2b

timmによって開発

CLIPフレームワークに基づくViT-Huge視覚エンコーダ、laion2Bデータセットでトレーニング済み、画像特徴抽出をサポート

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #CLIP視覚エンコーディング #マルチモーダル事前学習 #ゼロショット分類

ダウンロード数 1,969

リリース時間 : 12/24/2024

モデル概要

これはVision Transformerアーキテクチャに基づく大規模な視覚エンコーダモデルで、画像から高レベルな特徴表現を抽出するために特別に設計されています。CLIPモデルの画像エンコーディング部分として、画像をテキストと整合した意味空間にマッピングできます。

モデル特徴

大規模事前学習

laion2B超大規模データセットを使用した事前学習、数十億の画像-テキストペアを含む

高解像度処理

224x224ピクセルの入力解像度をサポート、詳細な画像処理に適している

クロスモーダルアライメント

CLIPモデルの一部として、学習された特徴空間はテキスト意味空間と整合している

効率的なTransformerアーキテクチャ

Vision Transformerアーキテクチャを採用、強力なグローバルモデリング能力を有する

モデル能力

画像特徴抽出

視覚的意味理解

クロスモーダル表現学習

画像分類

画像検索

使用事例

コンピュータビジョン

ゼロショット画像分類

CLIPフレームワークを利用して特定のトレーニングなしで画像分類を実現

画像検索

意味的類似性に基づく画像検索システム

マルチモーダルアプリケーション

画像テキストマッチング

画像とテキスト記述が一致するかどうかを判断

視覚的質問応答

マルチモーダルシステムの視覚特徴抽出モジュールとして

Property	Details
Model Type	Image Feature Extraction
Library Name	timm
License	Apache 2.0

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Vit Huge Patch14 Clip 224.laion2b

モデル概要

モデル特徴

モデル能力

使用事例

🚀 vit_huge_patch14_clip_224.laion2b

🚀 クイックスタート

📄 ライセンス