视觉问答优化

# 视觉问答优化

VL-Reasoner-7B 是一个基于 GRPO-SSR 技术训练的多模态推理模型，在多项多模态推理基准测试中表现卓越。

文本生成图像

Transformers 英语

Phi 4 Multimodal Instruct

Phi-4-multimodal-instruct是一款轻量级开源多模态基础模型，融合了Phi-3.5和4.0模型的语言、视觉及语音研究数据。支持文本、图像和音频输入，生成文本输出，并具备128K token的上下文长度。

文本生成音频

Transformers 支持多种语言

Spec-Vision-V1是一款轻量级、最先进的开源多模态模型，专为深度整合视觉与文本数据而构建，支持128K的上下文长度。

文本生成图像

Transformers 其他

SVECTOR-CORPORATION

Qwen2.5 VL 7B Instruct Quantized.w4a16

Qwen2.5-VL-7B-Instruct的量化版本，支持视觉-文本输入和文本输出，权重量化为INT4，激活量化为FP16。

文本生成图像

Transformers 英语

ReflectiVA是一种多模态大语言模型，通过整合外部知识源和反思令牌机制增强视觉问答能力。

文本生成图像

Florence 2 VLM Doc VQA

基于microsoft/Florence-2-base-ft微调的视觉问答(VQA)专用版本，能够解读图像内容并回答相关问题

文本生成图像

Transformers 英语

H2ovl Mississippi 2b

H2OVL-Mississippi-2B是由H2O.ai开发的高性能通用视觉语言模型，能够处理广泛的多模态任务。该模型拥有20亿参数，在图像描述、视觉问答（VQA）和文档理解等任务中表现出色。

图像生成文本

Transformers 英语

Xinyuan-VL-2B 是赛灵格集团推出的面向终端侧的高性能多模态大模型，基于 Qwen/Qwen2-VL-2B-Instruct 微调而成，使用了超过500万条多模态数据及少量纯文本数据。

文本生成图像

Transformers 支持多种语言

这是基于俄语对Qwen2-VL-2B模型进行的LORA微调版本，支持多模态任务。

图像生成文本

Transformers 支持多种语言

Eilev Blip2 Flan T5 Xl

针对第一人称视角视频优化的视觉语言模型，采用EILEV创新训练方法激发上下文学习能力

图像生成文本

Transformers 英语

Volcano-7b是一个多模态自反馈引导的修订模型，通过混合视觉指令调优数据集与多模态反馈和修订数据对vicuna-7b-v1.5模型进行微调。

图像生成文本

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase