Model Selection

High-precision Visual Features

# High-precision Visual Features

Nomic Embed Vision V1.5

High-performance visual embedding model, sharing the same embedding space with nomic-embed-text-v1.5, supporting multimodal applications

Transformers English

Vinvl Base Image Captioning

Microsoft's VinVL foundational pre-trained model, specifically designed for image captioning tasks, with strong visual-language understanding capabilities.

michelecafagna26

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase