Model Selection

Multi-sentence Image Captioning

# Multi-sentence Image Captioning

Rgb Language Cap

This is a vision-language model trained on the COCO dataset, capable of generating descriptive texts that include spatial relationships between image entities.

Transformers English

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase