モデル選定

CLIPアーキテクチャ

# CLIPアーキテクチャ

Eva Giant Patch14 Clip 224.laion400m

EVA CLIPモデルはOpenCLIPとtimmフレームワークに基づく視覚言語モデルで、ゼロショット画像分類タスクをサポートします。

テキスト生成画像

Eva02 Enormous Patch14 Clip 224.laion2b Plus

EVA-CLIPはCLIPアーキテクチャに基づく大規模視覚-言語モデルで、ゼロショット画像分類などのタスクをサポートします。

テキスト生成画像

Eva02 Enormous Patch14 Clip 224.laion2b

EVA-CLIPはCLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポートします。

テキスト生成画像

Eva02 Base Patch16 Clip 224.merged2b

EVA CLIPモデルはOpenCLIPとtimmフレームワークに基づいて構築された視覚言語モデルで、ゼロショット画像分類などのタスクをサポートします。

テキスト生成画像

Vit Large Patch14 Clip 224.laion2b

CLIPアーキテクチャに基づく視覚Transformerモデル、画像特徴抽出に特化

Vit Large Patch14 Clip 224.datacompxl

CLIPアーキテクチャに基づく視覚Transformerモデルで、画像特徴抽出専用にLAION組織によって公開されました。

Vit Base Patch16 Clip 224.laion2b

CLIPアーキテクチャに基づく視覚Transformerモデルで、画像エンコーダ部分のみを含み、画像特徴抽出タスクに適しています

Vit Base Patch16 Plus Clip 240.laion400m E31

LAION-400Mデータセットで訓練された視覚-言語デュアルユースモデル、ゼロショット画像分類タスクをサポート

Resnet50x4 Clip.openai

CLIPアーキテクチャに基づくResNet50x4視覚言語モデルで、ゼロショット画像分類タスクをサポート

画像生成テキスト

Resnet50 Clip.openai

ResNet50アーキテクチャとCLIP技術に基づくゼロショット画像分類モデル

MobileCLIP S0は、Appleのml-mobileclipプロジェクトのONNX対応バージョンで、モバイルデバイス向けに最適化されたゼロショット画像分類モデルです。

テキスト生成画像

Vit Betwixt Patch32 Clip 224.tinyclip Laion400m

ViTアーキテクチャに基づく小型CLIPモデルで、ゼロショット画像分類タスクに適しており、LAION-400Mデータセットでトレーニングされています。

Vit Medium Patch32 Clip 224.tinyclip Laion400m

OpenCLIPライブラリに基づく視覚言語モデルで、ゼロショット画像分類タスクをサポートします。

Vit Medium Patch16 Clip 224.tinyclip Yfcc15m

ViTアーキテクチャに基づくCLIPモデル、ゼロショット画像分類タスク用

Chinese Clip Vit Base Patch16

ViTアーキテクチャに基づく中国語CLIPモデル、画像とテキストのマルチモーダル理解をサポート

テキスト生成画像

CLIP ViT B 32 CommonPool.S S13m B4k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

CLIP ViT L 14 CommonPool.XL S13b B90k

CLIPアーキテクチャに基づく視覚-言語事前学習モデル、ゼロショット画像分類とクロスモーダル検索タスクをサポート

テキスト生成画像

CLIP ViT B 16 CommonPool.L.clip S1b B8k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

CLIP ViT B 32 DataComp.M S128m B4k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポートし、DataComp.Mデータセットで学習済み

テキスト生成画像

CLIP ViT B 32 CommonPool.M.laion S128m B4k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

Eva02 Base Patch16 Clip 224.merged2b S8b B131k

EVA02アーキテクチャに基づくCLIPモデル、ゼロショット画像分類タスクに適応

テキスト生成画像

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase