オープンソースDFN5B - CLIP画像エンコーダーモデル - 视觉特徴抽出タスクに無料で使用可能

ホーム

Vit Huge Patch14 Clip 224.dfn5b

timmによって開発

CLIPアーキテクチャに基づくViT-Huge画像エンコーダーで、AppleがリリースしたDFN5B-CLIPモデル。視覚特徴抽出タスクに適しています。

画像分類

Transformers

オープンソースライセンス:その他 #CLIP視覚エンコーディング #大規模事前学習 #ゼロショット転移

ダウンロード数 128

リリース時間 : 12/26/2024

モデル概要

このモデルはCLIPアーキテクチャの視覚トランスフォーマー(ViT)実装で、画像特徴抽出専用に設計されています。huge規模のpatch14構造を採用し、入力解像度は224x224ピクセルです。

モデル特徴

大規模視覚トランスフォーマー

ViT-Hugeアーキテクチャを採用し、強力な画像特徴抽出能力を備えています

CLIP互換設計

CLIPフレームワークに基づいて開発され、テキストエンコーダーと連携可能

高解像度処理

224x224ピクセルの入力解像度をサポート

モデル能力

画像特徴抽出

視覚表現学習

使用事例

コンピュータビジョン

画像分類

分類タスク用に画像特徴を抽出

視覚検索

画像検索システム向けに特徴ベクトルを生成

マルチモーダルアプリケーション

画像テキストマッチング

テキストエンコーダーと連携してクロスモーダル検索を実現

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Vit Huge Patch14 Clip 224.dfn5b

モデル概要

モデル特徴

モデル能力

使用事例

🚀 vit_huge_patch14_clip_224.dfn5b

🚀 クイックスタート

📄 ライセンス