モデル選定

マルチモーダル対照学習

# マルチモーダル対照学習

Eva02 Enormous Patch14 Clip 224.laion2b

EVA-CLIPはCLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポートします。

テキスト生成画像

Fashion Embedder

FashionCLIPはCLIPをベースにした視覚言語モデルで、ファッション分野に特化してファインチューニングされており、汎用的なファッション製品の特徴表現を生成できます。

テキスト生成画像

Transformers 英語

Vit B 16 SigLIP

WebLIデータセットで訓練されたSigLIP（Sigmoid Loss for Language Image Pre-training）モデルで、ゼロショット画像分類タスクに使用されます。

テキスト生成画像

これはCLIPアーキテクチャに基づく視覚言語モデルで、特に顔画像に対して8000万枚の画像で追加学習されています。

マルチモーダル融合

CLIP ViT G 14 Laion2b S34b B88k

LAION-2Bデータセットで訓練されたCLIP ViT-g/14モデル、ゼロショット画像分類と画像テキスト検索タスクをサポート

テキスト生成画像

Xclip Base Patch16 Zero Shot

X-CLIPはCLIPのミニマルな拡張で、汎用的な動画と言語の理解のために設計されており、(動画、テキスト)ペアで対照的に訓練され、ゼロショット、少数ショット、または完全教師ありの動画分類や動画-テキスト検索などのタスクに適しています。

テキスト生成ビデオ

Transformers 英語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase