图像生成文本

2025年最佳的 896 个图像生成文本工具

Clip Vit Large Patch14

CLIP是由OpenAI开发的视觉-语言模型，通过对比学习将图像和文本映射到共享的嵌入空间，支持零样本图像分类

图像生成文本

Clip Vit Base Patch32

CLIP是由OpenAI开发的多模态模型，能够理解图像和文本之间的关系，支持零样本图像分类任务。

图像生成文本

Siglip So400m Patch14 384

SigLIP是基于WebLi数据集预训练的视觉语言模型，采用改进的sigmoid损失函数，优化了图像-文本匹配任务。

图像生成文本

Clip Vit Base Patch16

CLIP是由OpenAI开发的多模态模型，通过对比学习将图像和文本映射到共享的嵌入空间，实现零样本图像分类能力。

图像生成文本

Blip Image Captioning Base

BLIP是一个先进的视觉-语言预训练模型，擅长图像描述生成任务，支持条件式和非条件式文本生成。

图像生成文本

Blip Image Captioning Large

BLIP是一个统一的视觉-语言预训练框架，擅长图像描述生成任务，支持条件式和无条件式图像描述生成。

图像生成文本

OpenVLA 7B是一个基于Open X-Embodiment数据集训练的开源视觉-语言-动作模型，能够根据语言指令和摄像头图像生成机器人动作。

图像生成文本

Transformers 英语

LLaVA 是一款开源多模态聊天机器人，基于 LLaMA/Vicuna 微调，支持图文交互。

图像生成文本

Vit Gpt2 Image Captioning

这是一个基于ViT和GPT2架构的图像描述生成模型，能够为输入图像生成自然语言描述。

图像生成文本

BLIP-2是一个视觉语言模型，结合了图像编码器和大型语言模型，用于图像到文本的生成任务。

图像生成文本

Transformers 英语

Siglip2 So400m Patch14 384

SigLIP 2 是基于 SigLIP 预训练目标的视觉语言模型，整合了多项技术以提升语义理解、定位和密集特征提取能力。

图像生成文本

Gemma是Google推出的轻量级先进开放模型系列，基于与Gemini相同的研究和技术构建。Gemma 3是多模态模型，能处理文本和图像输入并生成文本输出。

图像生成文本

Llava Llama 3 8b V1 1 Transformers

基于Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336微调的LLaVA模型，支持图像文本到文本任务

图像生成文本

Phi 3.5 Vision Instruct

Phi-3.5-vision 是一款轻量级、前沿的开放多模态模型，支持128K上下文长度，专注于高质量、富含推理的文本和视觉数据。

图像生成文本

Transformers 其他

Gemma是Google推出的轻量级前沿开放模型系列，基于与Gemini相同技术构建，支持多模态输入和文本输出。

图像生成文本

GIT是一个基于CLIP图像标记和文本标记的双条件Transformer解码器，用于图像到文本的生成任务。

图像生成文本

Transformers 支持多种语言

Gemma是Google推出的轻量级前沿开源多模态模型系列，基于创建Gemini模型的技术构建，支持文本和图像输入并生成文本输出。

图像生成文本

Siglip Base Patch16 224

SigLIP是基于WebLi数据集预训练的视觉语言模型，采用改进的Sigmoid损失函数，优化了图像-文本匹配任务

图像生成文本

Siglip Large Patch16 384

SigLIP是基于WebLi数据集预训练的多模态模型，采用改进的Sigmoid损失函数，适用于零样本图像分类和图文检索任务。

图像生成文本

Blip2 Opt 6.7b Coco

BLIP-2是一种视觉语言模型，结合了图像编码器和大型语言模型，用于图像到文本生成和视觉问答任务。

图像生成文本

Transformers 英语

Trocr Base Handwritten

TrOCR是一种基于Transformer的光学字符识别模型，专门用于手写文本识别。

图像生成文本

Moondream 是一款轻量级视觉语言模型，专为高效全平台运行设计。

图像生成文本

Kosmos 2 Patch14 224

Kosmos-2是一个多模态大语言模型，能够理解和生成与图像相关的文本描述，并实现文本与图像区域的关联。

图像生成文本

Donut Base Finetuned Docvqa

Donut是一种无需OCR的文档理解Transformer模型，基于DocVQA数据集微调，能够直接从图像中提取和理解文本信息。

图像生成文本

Biomedclip PubMedBERT 256 Vit Base Patch16 224

BiomedCLIP是一个生物医学视觉语言基础模型，通过对比学习在PMC-15M数据集上进行预训练，支持跨模态检索、图像分类和视觉问答等任务。

图像生成文本英语

Donut Base Finetuned Rvlcdip

Donut是一种无需OCR的文档理解Transformer模型，结合视觉编码器和文本解码器处理文档图像。

图像生成文本

Minicpm V 2 6 Int4

MiniCPM-V 2.6是一个多模态视觉语言模型，支持图像文本到文本的转换，具备多语言处理能力。

图像生成文本

Transformers 其他

Blip2 Flan T5 Xl

BLIP-2是基于Flan T5-xl的视觉语言模型，通过冻结图像编码器和大型语言模型进行预训练，支持图像描述生成和视觉问答等任务。

图像生成文本

Transformers 英语

MiniCPM-V是一个手机端GPT-4V级多模态大语言模型，支持单图、多图与视频理解，具备视觉、光学字符识别等功能。

图像生成文本

Transformers 其他

H2ovl Mississippi 2b

H2OVL-Mississippi-2B是由H2O.ai开发的高性能通用视觉语言模型，能够处理广泛的多模态任务。该模型拥有20亿参数，在图像描述、视觉问答（VQA）和文档理解等任务中表现出色。

图像生成文本

Transformers 英语

Clip Flant5 Xxl

基于google/flan-t5-xxl微调的视觉语言生成模型，专为图像文本检索任务设计

图像生成文本

Transformers 英语

Florence 2 SD3 Captioner

Florence-2-SD3-Captioner 是一个基于 Florence-2 架构的图像描述生成模型，专门用于生成高质量的图像描述文本。

图像生成文本

Transformers 支持多种语言

H2ovl Mississippi 800m

H2O.ai推出的8亿参数视觉语言模型，专注于OCR和文档理解，性能优异

图像生成文本

Transformers 英语

16亿参数的多模态模型，融合SigLIP与Phi-1.5技术架构，支持图像理解和问答任务

图像生成文本

Transformers 英语

Gemma 3 27b It Qat Q4 0 Gguf

Gemma是Google推出的轻量级开源多模态模型系列，支持文本和图像输入并生成文本输出，具有128K大上下文窗口和超过140种语言支持。

图像生成文本

Smolvlm2 2.2B Instruct

SmolVLM2-2.2B 是一款轻量级多模态模型，专为分析视频内容而设计，可处理视频、图像和文本输入并生成文本输出。

图像生成文本

Transformers 英语

Pix2struct Tiny Random

这是一个基于MIT许可证的图像转文本模型，能够将图像内容转换为描述性文本。

图像生成文本

Florence 2 Base Ft

Florence-2是微软开发的先进视觉基础模型，采用基于提示的方法处理广泛的视觉和视觉语言任务。

图像生成文本

Gemma是Google推出的一系列轻量级、最先进的开放模型，基于与创建Gemini模型相同的研究和技术构建。

图像生成文本

Gemma是Google推出的轻量级开源多模态模型系列，基于与Gemini相同技术构建，支持文本和图像输入并生成文本输出。

图像生成文本

Chexpert Mimic Cxr Findings Baseline

这是一个基于VisionEncoderDecoder架构的医学影像报告生成模型，专门用于从胸部X光图像生成放射学报告文本。

图像生成文本

Transformers 英语

Chexpert Mimic Cxr Impression Baseline

这是一个基于胸部X光图像的文本生成模型，能够根据医学影像生成放射学印象报告。

图像生成文本

Transformers 英语

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase