高精度图像描述

# 高精度图像描述

Pixelreasoner RL V1

PixelReasoner是一个基于Qwen2.5-VL-7B-Instruct的视觉语言模型，采用好奇心驱动强化学习训练，专注于图像文本到文本的任务。

图像生成文本

Transformers 英语

Llama3.2 11B Vision Instruct INT4 GPTQ

Llama 3.2-Vision是Meta开发的多模态大语言模型，具备图像推理和文本生成能力，支持视觉识别、图像描述和问答等任务。

图像生成文本

Transformers 支持多种语言

Amoral Gemma3 12B Vision

基于soob3123/amoral-gemma3-12B的视觉增强版本，结合了Gemma3-12B大语言模型与视觉编码器，支持多模态任务

图像生成文本

Transformers 英语

Qwen2.5 VL 3B Instruct Quantized.w4a16

Qwen2.5-VL-3B-Instruct的量化版本，权重量化为INT4，激活量化为FP16，适用于视觉-文本任务的高效推理。

文本生成图像

Transformers 英语

Asagi-4B是一个大规模日语视觉语言模型（VLM），基于广泛的日语数据集训练而成，融合了多样化的数据来源。

图像生成文本

Transformers 日语

Llama 3.2 11B Vision Instruct

Llama 3.2-Vision是Meta开发的多模态大型语言模型，支持图像和文本输入，能够进行视觉识别、图像推理和描述等任务。

图像生成文本

Transformers 支持多种语言

Pixtral是一个基于Mistral架构的多模态模型，能够处理图像和文本输入，生成详细的文本描述。

图像生成文本

mistral-community

ShareCaptioner是一个开源的图像描述生成模型，基于改进的InternLM-Xcomposer-7B基础模型，在GPT4-Vision辅助的ShareGPT4V数据集上微调，能生成高质量的图像描述。

图像生成文本

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase