モデル選定

オープン語彙認識

# オープン語彙認識

OPENCLIP SigLIP Tiny 14 Distill SigLIP 400m Cc9m

SigLIPアーキテクチャに基づく軽量な視覚言語モデルで、より大きなSigLIP-400mモデルから蒸留技術を用いて知識を抽出し、ゼロショット画像分類タスクに適しています。

Llmdet Swin Large Hf

LLMDetは大規模言語モデル監視による強力なオープン語彙物体検出器で、CVPR2025ハイライト論文の成果です

Llmdet Swin Base Hf

LLMDetは大規模言語モデル監視に基づくオープン語彙物体検出器で、ゼロショット物体検出を実現できます。

Llmdet Swin Tiny Hf

LLMDetは大規模言語モデル監視による強力なオープン語彙物体検出器で、ゼロショット物体検出を実現できます。

VLM R1 Qwen2.5VL 3B OVD 0321

Qwen2.5-VL-3B-Instructをベースにしたゼロショット物体検出モデルで、VLM-R1強化学習によって強化され、オープン語彙検出タスクをサポートします。

テキスト生成画像

Safetensors 英語

YOLOEはリアルタイム視覚万能モデルで、物体検出と視覚理解能力を組み合わせ、様々な視覚タスクに適用可能です。

GenMedClipはopen_clipライブラリを基にしたゼロショット画像分類モデルで、医療画像分析に特化しています。

Eva02 Large Patch14 Clip 336.merged2b

EVA02 CLIPはCLIPアーキテクチャに基づく大規模な視覚-言語モデルで、ゼロショット画像分類などのタスクをサポートします。

テキスト生成画像

Eva02 Large Patch14 Clip 224.merged2b

EVA CLIPモデルはOpenCLIPとtimmモデルの重みに基づく視覚言語モデルで、ゼロショット画像分類などのタスクをサポートします。

Eva02 Enormous Patch14 Clip 224.laion2b Plus

EVA-CLIPはCLIPアーキテクチャに基づく大規模視覚-言語モデルで、ゼロショット画像分類などのタスクをサポートします。

テキスト生成画像

Vit Huge Patch14 Clip 224.metaclip Altogether

ViT-Hugeアーキテクチャに基づくCLIPモデルで、ゼロショット画像分類タスクをサポート

Vit Base Patch16 Clip 224.metaclip 400m

MetaCLIP-400Mデータセットで訓練されたデュアルフレームワーク互換の視覚モデルで、OpenCLIPとtimmフレームワークをサポート

Omdet Turbo Swin Tiny Hf

OmDet-TurboはリアルタイムTransformerベースの効率的な融合ヘッドを備えたオープン語彙検出モデルで、ゼロショット物体検出タスクに適しています。

CLIPアーキテクチャに基づく医療分野向けゼロショット画像分類モデル

テキスト生成画像

Resnet50x64 Clip.openai

OpenCLIPライブラリのResNet50x64アーキテクチャに基づくCLIPモデルで、ゼロショット画像分類タスクをサポートします。

Vitamin XL 384px

ViTamin-XL-384px はViTaminアーキテクチャに基づく大規模視覚言語モデルで、視覚言語タスク向けに設計されており、高解像度画像処理とマルチモーダル特徴抽出をサポートします。

画像生成テキスト

Owlv2 Large Patch14 Ensemble

OWLv2はゼロショットのテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを検出できます。

テキスト生成画像

Thomasboosinger

Owlv2 Base Patch16 Ensemble

OWLv2はゼロショットのテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内の物体を特定できます。

Owlv2 Base Patch16

OWLv2はゼロショットのテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内の物体を検出・位置特定できます。

テキスト生成画像

Owlv2 Large Patch14 Finetuned

OWLv2はゼロショットのテキスト条件付き物体検出モデルで、特定カテゴリの学習データなしにテキストクエリで画像中の物体を検出できます。

テキスト生成画像

Owlv2 Large Patch14 Ensemble

OWLv2はゼロショットのテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを特定できます。

テキスト生成画像

Owlv2 Base Patch16 Finetuned

OWLv2はゼロショットテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを検索できます。

CLIP ViT L 14 CommonPool.XL.clip S13b B90k

CLIPアーキテクチャに基づく視覚-言語モデルで、ゼロショット画像分類とクロスモーダル検索をサポート

テキスト生成画像

CLIP ViT B 32 CommonPool.M.clip S128m B4k

CLIPアーキテクチャに基づくゼロショット画像分類モデルで、汎用プーリング機能をサポート

画像生成テキスト

CLIP ViT B 32 CommonPool.S.basic S13m B4k

CLIPアーキテクチャに基づく視覚-言語モデル、ゼロショット画像分類タスクをサポート

画像生成テキスト

Eva02 Large Patch14 Clip 224.merged2b S4b B131k

EVA02はCLIPアーキテクチャに基づく大規模な視覚言語モデルで、ゼロショット画像分類タスクをサポートします。

Owlvit Large Patch14

OWL-ViTはゼロショットテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを検索できます。

テキスト生成画像

Owlvit Base Patch16

OWL-ViTはゼロショットテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内の物体を検出できます。

テキスト生成画像

Owlvit Base Patch32

OWL-ViTはゼロショットのテキスト条件付き物体検出モデルで、特定カテゴリの訓練データなしにテキストクエリで画像内のオブジェクトを検索できます。

テキスト生成画像

Clip Vit Base Patch32

CLIPはOpenAIが開発したマルチモーダルモデルで、画像とテキストの関係を理解し、ゼロショット画像分類タスクをサポートします。

画像生成テキスト

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase