モデル選定

マルチモーダルコントラスティブラーニング

# マルチモーダルコントラスティブラーニング

Eva02 Large Patch14 Clip 336.merged2b

EVA02 CLIPはCLIPアーキテクチャに基づく大規模な視覚-言語モデルで、ゼロショット画像分類などのタスクをサポートします。

テキスト生成画像

Eva02 Large Patch14 Clip 224.merged2b

EVA CLIPモデルはOpenCLIPとtimmモデルの重みに基づく視覚言語モデルで、ゼロショット画像分類などのタスクをサポートします。

Brahmai Clip V0.1

ViT-L/14とマスクドセルフアテンションTransformerを基にしたCLIPモデルで、ゼロショット画像分類研究用

テキスト生成画像

Transformers 英語

brahmairesearch

Resnet50x64 Clip.openai

OpenCLIPライブラリのResNet50x64アーキテクチャに基づくCLIPモデルで、ゼロショット画像分類タスクをサポートします。

CLIP ViT B 32 CommonPool.S S13m B4k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

Clip Vit Base Patch32

OpenAIが開発したCLIPモデル、Vision Transformerアーキテクチャに基づき、画像とテキストの共同理解をサポート

テキスト生成画像

CLIP ViT L 14 CommonPool.XL S13b B90k

CLIPアーキテクチャに基づく視覚-言語事前学習モデル、ゼロショット画像分類とクロスモーダル検索タスクをサポート

テキスト生成画像

CLIP ViT B 16 DataComp.L S1b B8k

CLIPアーキテクチャに基づくゼロショット画像分類モデルで、DataCompデータセットでトレーニングされ、効率的な画像-テキストマッチングタスクをサポートします。

テキスト生成画像

CLIP ViT B 16 CommonPool.L.laion S1b B8k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポートし、laion-s1B-b8Kデータセットでトレーニングされています

テキスト生成画像

CLIP ViT B 16 CommonPool.L.text S1b B8k

CLIPアーキテクチャに基づく視覚-言語モデル、ゼロショット画像分類タスクをサポート

テキスト生成画像

CLIP ViT B 16 CommonPool.L S1b B8k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

CLIP ViT B 32 CommonPool.M.clip S128m B4k

CLIPアーキテクチャに基づくゼロショット画像分類モデルで、汎用プーリング機能をサポート

画像生成テキスト

CLIP ViT B 32 CommonPool.M.laion S128m B4k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

CLIP ViT B 32 CommonPool.M.image S128m B4k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

CLIP ViT B 32 CommonPool.M.text S128m B4k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

CLIP ViT B 32 CommonPool.M.basic S128m B4k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポートします。

テキスト生成画像

CLIP ViT B 32 CommonPool.M S128m B4k

CLIPアーキテクチャに基づくゼロショット画像分類モデル、汎用視覚-言語タスクをサポート

テキスト生成画像

CLIP ViT B 32 CommonPool.S.clip S13m B4k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

CLIP ViT B 32 CommonPool.S.image S13m B4k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

Eva02 Enormous Patch14 Clip 224.laion2b S4b B115k

EVA02アーキテクチャに基づく大規模視覚-言語モデル、ゼロショット画像分類タスクをサポート

テキスト生成画像

Eva02 Large Patch14 Clip 224.merged2b S4b B131k

EVA02はCLIPアーキテクチャに基づく大規模な視覚言語モデルで、ゼロショット画像分類タスクをサポートします。

Vit Base Patch16 Clip 224.openai

CLIPはOpenAIが開発した視覚-言語モデルで、コントラスティブラーニングにより画像とテキストのエンコーダを訓練し、ゼロショット画像分類をサポートします。

テキスト生成画像

Biomedvlp CXR BERT General

CXR-BERTは胸部X線分野向けに開発された専用言語モデルで、語彙と事前学習プロセスの改良により放射線学テキスト処理能力を最適化

大規模言語モデル

Transformers 英語

Clip Vit Base Patch32

CLIPはOpenAIが開発したマルチモーダルモデルで、画像とテキストの関係を理解し、ゼロショット画像分類タスクをサポートします。

画像生成テキスト

Clip Vit Large Patch14

CLIPはOpenAIによって開発された視覚-言語モデルで、コントラスティブラーニングを通じて画像とテキストを共有の埋め込み空間にマッピングし、ゼロショット画像分類をサポートします

画像生成テキスト

Clip Vit Base Patch16

CLIPはOpenAIが開発したマルチモーダルモデルで、コントラスティブラーニングにより画像とテキストを共有の埋め込み空間にマッピングし、ゼロショット画像分類能力を実現します。

画像生成テキスト

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase