モデル選定

オープンドメイン認識

# オープンドメイン認識

Internvideo2 Stage2 6B

InternVideo2は6Bパラメータ規模のマルチモーダル動画理解モデルで、動画コンテンツの分析と理解タスクに特化しています。

ビデオ生成テキスト

Resnet101 Clip Gap.openai

CLIPフレームワークに基づくResNet101画像エンコーダー、グローバル平均プーリング(GAP)による画像特徴抽出

Resnet50 Clip Gap.openai

CLIPモデルの視覚エンコーダ部分に基づくResNet50バリアントで、グローバル平均プーリング(GAP)により画像特徴を抽出

Eva Giant Patch14 Clip 224.laion400m

EVA CLIPモデルはOpenCLIPとtimmフレームワークに基づく視覚言語モデルで、ゼロショット画像分類タスクをサポートします。

テキスト生成画像

Eva02 Enormous Patch14 Clip 224.laion2b

EVA-CLIPはCLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポートします。

テキスト生成画像

Eva02 Base Patch16 Clip 224.merged2b

EVA CLIPモデルはOpenCLIPとtimmフレームワークに基づいて構築された視覚言語モデルで、ゼロショット画像分類などのタスクをサポートします。

テキスト生成画像

Vit Large Patch14 Clip 224.laion2b

CLIPアーキテクチャに基づく視覚Transformerモデル、画像特徴抽出に特化

Vit Huge Patch14 Clip 224.laion2b

CLIPフレームワークに基づくViT-Huge視覚エンコーダ、laion2Bデータセットでトレーニング済み、画像特徴抽出をサポート

Vit Base Patch32 Clip 224.laion2b

CLIPアーキテクチャに基づく視覚Transformerモデル、画像特徴抽出用に設計、laion2Bデータセットで学習

Vit Huge Patch14 Clip 224.metaclip 2pt5b

MetaCLIP-2.5Bデータセットで訓練されたデュアルユースの視覚言語モデル、ゼロショット画像分類タスクをサポート

Vit Large Patch14 Clip 224.metaclip 2pt5b

MetaCLIP-2.5Bデータセットでトレーニングされたデュアルフレームワーク互換の視覚モデルで、ゼロショット画像分類タスクをサポート

Vit Base Patch16 Plus Clip 240.laion400m E31

LAION-400Mデータセットで訓練された視覚-言語デュアルユースモデル、ゼロショット画像分類タスクをサポート

Vit Base Patch32 Clip 224.laion2b E16

LAION-2Bデータセットで訓練されたVision Transformerモデルで、ゼロショット画像分類タスクをサポート

Resnet50x16 Clip.openai

CLIPフレームワークを基にしたResNet50x16視覚モデル、ゼロショット画像分類タスクをサポート

Resnet50x4 Clip.openai

CLIPアーキテクチャに基づくResNet50x4視覚言語モデルで、ゼロショット画像分類タスクをサポート

画像生成テキスト

Resnet50 Clip.openai

ResNet50アーキテクチャとCLIP技術に基づくゼロショット画像分類モデル

Vit Xsmall Patch16 Clip 224.tinyclip Yfcc15m

CLIPアーキテクチャに基づく小型の視覚-言語モデルで、効率的なゼロショット画像分類のために設計されています

Vit Betwixt Patch32 Clip 224.tinyclip Laion400m

ViTアーキテクチャに基づく小型CLIPモデルで、ゼロショット画像分類タスクに適しており、LAION-400Mデータセットでトレーニングされています。

Vit Medium Patch32 Clip 224.tinyclip Laion400m

OpenCLIPライブラリに基づく視覚言語モデルで、ゼロショット画像分類タスクをサポートします。

Vit B 16 Aion400m E32 1finetuned 1

OpenCLIPフレームワークに基づくVision Transformerモデルで、ゼロショット画像分類タスク向けにファインチューニングされています

CLIP ViT B 32 CommonPool.S S13m B4k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

CLIP ViT B 32 Laion2b E16

OpenCLIPで実装された視覚-言語事前学習モデル、ゼロショット画像分類タスクをサポート

テキスト生成画像

CLIP ViT L 14 CommonPool.XL.laion S13b B90k

CLIPアーキテクチャに基づく視覚-言語モデル、ゼロショット画像分類タスクをサポート、laionデータセットでトレーニング済み

テキスト生成画像

CLIP ViT L 14 CommonPool.XL S13b B90k

CLIPアーキテクチャに基づく視覚-言語事前学習モデル、ゼロショット画像分類とクロスモーダル検索タスクをサポート

テキスト生成画像

CLIP ViT B 16 DataComp.L S1b B8k

CLIPアーキテクチャに基づくゼロショット画像分類モデルで、DataCompデータセットでトレーニングされ、効率的な画像-テキストマッチングタスクをサポートします。

テキスト生成画像

CLIP ViT B 16 CommonPool.L.clip S1b B8k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

CLIP ViT B 16 CommonPool.L.laion S1b B8k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポートし、laion-s1B-b8Kデータセットでトレーニングされています

テキスト生成画像

CLIP ViT B 16 CommonPool.L.image S1b B8k

CLIPアーキテクチャに基づく視覚言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

CLIP ViT B 16 CommonPool.L.text S1b B8k

CLIPアーキテクチャに基づく視覚-言語モデル、ゼロショット画像分類タスクをサポート

テキスト生成画像

CLIP ViT B 16 CommonPool.L S1b B8k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

CLIP ViT B 32 DataComp.M S128m B4k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポートし、DataComp.Mデータセットで学習済み

テキスト生成画像

CLIP ViT B 32 CommonPool.M.laion S128m B4k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

CLIP ViT B 32 CommonPool.M.image S128m B4k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

CLIP ViT B 32 CommonPool.M.text S128m B4k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

CLIP ViT B 32 CommonPool.M.basic S128m B4k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポートします。

テキスト生成画像

CLIP ViT B 32 CommonPool.M S128m B4k

CLIPアーキテクチャに基づくゼロショット画像分類モデル、汎用視覚-言語タスクをサポート

テキスト生成画像

CLIP ViT B 32 DataComp.S S13m B4k

CLIPアーキテクチャに基づくゼロショット画像分類モデルで、DataCompデータセットで訓練されており、様々な視覚タスクをサポートします。

テキスト生成画像

CLIP ViT B 32 CommonPool.S.clip S13m B4k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

CLIP ViT B 32 CommonPool.S.laion S13m B4k

CLIPアーキテクチャに基づく視覚言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

CLIP ViT B 32 CommonPool.S.image S13m B4k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類タスクをサポート

テキスト生成画像

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase