モデル選定

マルチモーダルコントラスト学習

# マルチモーダルコントラスト学習

PE Core B16 224

知覚エンコーダーは、シンプルな視覚-言語学習でトレーニングされた最先端の画像およびビデオ理解エンコーダーで、さまざまな視覚タスクで最先端の性能を実現しています。

テキスト生成画像

PE Core G14 448

知覚エンコーダ（PE）は、シンプルな視覚-言語学習によってトレーニングされた最先端の画像・動画理解エンコーダで、様々な視覚タスクにおいて最先端の性能を達成しています。

テキスト生成画像

PE Core L14 336

Metaが開発した大規模視覚エンコーダモデル。コントラスト事前学習と合成ビデオデータによる微調整を経て、様々な視覚タスクで最先端の性能を達成

テキスト生成画像

Sail Clip Hendrix 10epochs

openai/clip-vit-large-patch14をベースにファインチューニングした視覚言語モデル、10エポックの訓練を経て

テキスト生成画像

Vit SO400M 14 SigLIP2

WebLIデータセットで訓練されたSigLIP 2ビジュアルランゲージモデルで、ゼロショット画像分類タスクに適しています。

テキスト生成画像

Vit H 14 CLIPA Datacomp1b

CLIPA-v2モデル、効率的なコントラスト型画像テキストモデルで、ゼロショット画像分類タスク向けに設計されています。

テキスト生成画像

Vit H 14 CLIPA 336 Laion2b

CLIPA-v2モデル、laion2B-enデータセットでトレーニングされ、ゼロショット画像分類タスクに特化

テキスト生成画像

CLIP ViT B 32 Laion2b E16

OpenCLIPで実装された視覚-言語事前学習モデル、ゼロショット画像分類タスクをサポート

テキスト生成画像

CLIP ViT B 16 CommonPool.L.clip S1b B8k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

CLIP ViT B 32 DataComp.M S128m B4k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポートし、DataComp.Mデータセットで学習済み

テキスト生成画像

CLIP ViT B 32 DataComp.S S13m B4k

CLIPアーキテクチャに基づくゼロショット画像分類モデルで、DataCompデータセットで訓練されており、様々な視覚タスクをサポートします。

テキスト生成画像

CLIP ViT B 32 CommonPool.S.laion S13m B4k

CLIPアーキテクチャに基づく視覚言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

Vit Large Patch14 Clip 336.openai

OpenAIが開発したCLIPモデル、ViT-L/14アーキテクチャを採用、ゼロショット画像分類タスクをサポート

テキスト生成画像

ALIGNは視覚-言語デュアルエンコーダーモデルで、コントラスト学習により画像とテキスト表現のアラインメントを実現し、大規模ノイズデータを活用して先進的なクロスモーダル表現効果を達成します。

マルチモーダルアライメント

Transformers 英語

FashionCLIPはCLIPを基に開発された視覚言語モデルで、ファッション分野に特化してファインチューニングされ、汎用的な製品表現を生成可能です。

テキスト生成画像

Transformers 英語

AltCLIPはシンプルで効率的なバイリンガルCLIPモデルで、中国語と英語の画像テキスト表現タスクをサポートします。

テキスト生成画像

Transformers 複数言語対応

OpenAI CLIPをファインチューニングしたリモートセンシング画像専用モデル、ゼロショット分類とクロスモーダル検索能力を向上

テキスト生成画像

イタリア語に特化した初のコントラスト言語-画像事前学習モデルで、イタリア語BERTとViTアーキテクチャを基盤とし、わずか140万サンプルのファインチューニングで競争力のある性能を実現

テキスト生成画像その他

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase