EVA - CLIPオープンソース視覚 - 言語モデル、無料でゼロサンプル画像分類などのタスクをこなします

ホーム

Eva02 Enormous Patch14 Clip 224.laion2b Plus

timmによって開発

EVA-CLIPはCLIPアーキテクチャに基づく大規模視覚-言語モデルで、ゼロショット画像分類などのタスクをサポートします。

テキスト生成画像

Safetensors

オープンソースライセンス:MIT #ゼロショット画像分類 #大規模事前学習 #マルチモーダル理解

ダウンロード数 54

リリース時間 : 12/26/2024

モデル概要

このモデルはCLIPアーキテクチャに基づく視覚-言語事前学習モデルで、画像とテキストの関連性を理解し、様々なクロスモーダルタスクに適用可能です。

モデル特徴

ゼロショット学習能力

特定タスクのファインチューニングなしで画像分類などのタスクを実行可能

大規模事前学習

LAION-2Bなどの大規模データセットで事前学習を実施

クロスモーダル理解

視覚情報とテキスト情報を同時に処理・理解可能

モデル能力

ゼロショット画像分類

画像-テキストマッチング

クロスモーダル検索

使用事例

コンピュータビジョン

ゼロショット画像分類

訓練なしで新規カテゴリの画像を分類可能

画像検索

テキスト記述に基づき関連画像を検索

マルチモーダルアプリケーション

画像-テキストマッチング

画像とテキスト記述の一致度を評価

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Eva02 Enormous Patch14 Clip 224.laion2b Plus

モデル概要

モデル特徴

モデル能力

使用事例

🚀 EVA02 Enormous Patch14 CLIP 224.laion2b_plus

🚀 クイックスタート

📄 ライセンス