视觉语言理解

# 视觉语言理解

Blip Arabic Flickr 8k

基于BLIP架构微调的阿拉伯语图像字幕生成模型，专门针对Flickr8k阿拉伯语数据集优化

图像生成文本

Transformers 支持多种语言

Skywork R1V2 38B

天工-R1V2-38B是当前最先进的开源多模态推理模型，在多项基准测试中表现卓越，具备强大的视觉推理与文本理解能力。

图像生成文本

Skywork VL Reward 7B

Skywork-VL-Reward-7B是一个7B参数的多模态奖励模型，基于Qwen2.5-VL-7B-Instruct架构，增加了用于训练奖励模型的价值头结构。

多模态融合

Emova Qwen 2 5 3b

EMOVA是一种端到端全能模态大语言模型，支持视觉、听觉和语音功能，能够生成具有情感控制的文本和语音响应。

多模态融合

Transformers 支持多种语言

Gemma 3 4b It Qat GGUF

Gemma 3是谷歌推出的轻量级先进开放模型系列，基于创建Gemini模型的相同研究和技术构建。该模型是多模态的，能够处理文本和图像输入并生成文本输出。

文本生成图像英语

VL Rethinker 7B Mlx 4bit

VL-Rethinker-7B 4位MLX量化版是基于TIGER-Lab/VL-Rethinker-7B模型的量化版本，专为苹果设备优化，支持视觉问答任务。

文本生成图像英语

Llama 3.2 11B Vision Radiology Mini

这是一个基于Llama架构的多模态模型，支持视觉和文本指令，经过4位量化优化。

图像生成文本

Internvl3 78B Pretrained

InternVL3-78B是OpenGVLab推出的先进多模态大语言模型，展现卓越的综合性能。相比前代InternVL 2.5，具备更强大的多模态感知与推理能力，并将能力拓展至工具使用、GUI代理、工业图像分析、3D视觉感知等新领域。

文本生成图像

Transformers 其他

VL Rethinker 7B Fp16

该模型是基于Qwen2.5-VL-7B-Instruct转换而来的多模态视觉语言模型，支持视觉问答任务。

文本生成图像

Transformers 英语

VL Rethinker 72B 4bit

VL-Rethinker-72B-4bit是一个基于Qwen2.5-VL-7B-Instruct的多模态模型，支持视觉问答任务，已转换为MLX格式以便在苹果设备上高效运行。

文本生成图像

Transformers 英语

Qwen2.5 VL 7B Instruct Gptqmodel Int8

基于Qwen2.5-VL-7B-Instruct模型进行GPTQ-INT8量化的视觉语言模型

图像生成文本

Transformers 支持多种语言

Llama 4 Maverick 17B 128E Instruct 6bit

基于Meta Llama 4模型转换的6位量化版本，支持多语言指令交互

大型语言模型

Transformers 支持多种语言

VoRA是一个基于7B参数的视觉语言模型，能够处理图像和文本输入，生成文本输出。

图像生成文本

Qwen2.5 VL 72B Instruct GGUF

Qwen2.5-VL-72B-Instruct是一个72B参数规模的多模态大模型，支持视觉-语言任务，能够理解和生成与图像相关的文本内容。

文本生成图像英语

Qwen Qwen2.5 VL 32B Instruct GGUF

Qwen2.5-VL-32B-Instruct是一个32B参数规模的多模态视觉语言模型，支持图像理解和文本生成任务。

文本生成图像英语

基于Qwen2.5-VL通过创新性Curr-ReFT方法微调的多模态大语言模型，显著提升了视觉语言理解与推理能力。

文本生成图像

Internvl2 5 HiMTok 8B

HiMTok是一个基于InternVL2_5-8B大型多模态模型微调的分层掩码标记学习框架，专注于图像分割任务。

图像生成文本

这是一个图像文本到文本的转换模型，能够处理图像和文本输入，生成相应的文本输出。

文本生成图像

Qwen2 VL 7B Captioner Relaxed GGUF

该模型是基于Qwen2-VL-7B-Captioner-Relaxed转换的GGUF格式版本，专为图像转文本任务优化，支持通过llama.cpp和Koboldcpp等工具运行。

图像生成文本英语

mmMamba-linear是首个通过中等学术计算资源实现二次到线性蒸馏的纯解码器多模态状态空间模型，具有高效的多模态处理能力。

图像生成文本

Qwen2 Vl 7b Rslora Offensive Meme Singapore

针对新加坡语境下冒犯性表情包分类的视觉语言模型，基于Qwen2-VL-7B-Instruct微调

多模态融合

Transformers 英语

Mulberry Qwen2vl 7b

桑葚模型是一个基于逐步推理的模型，通过集体知识搜索生成的Mulberry - 260K SFT数据集上进行训练。

文本生成图像

Deepseer R1 Vision Distill Qwen 1.5B Google Vit Base Patch16 224

DeepSeer是基于DeepSeek-R1模型开发的视觉语言模型，支持思维链推理能力，通过对话模板训练视觉模型。

图像生成文本

mehmetkeremturkcan

魔术师是首个具备自由形式多图像定位能力的多模态大语言模型，在复杂多图像场景中实现精确定位，性能超越70B规模模型。

文本生成图像

Transformers 英语

Open LLaVA NeXT LLaMA3 8B

一个开源的聊天机器人模型，通过在开源数据上微调整个模型进行训练，可用于多模态模型和聊天机器人的研究。

文本生成图像

Share4oReasoning

Qwen2 VL 7B Instruct GGUF

Qwen2-VL-7B-Instruct 是一个多模态视觉语言模型，支持图像和文本的联合理解与生成。

文本生成图像

Transformers 英语

Minivla Vq Libero90 Prismatic

MiniVLA是一个轻量级的视觉语言模型，兼容Prismatic VLMs训练框架，支持图像文本到文本的多模态任务。

图像生成文本

Transformers 英语

GLM-Edge-V-5B是一个50亿参数的多模态模型，支持图像和文本输入，能够执行图像理解和文本生成任务。

图像生成文本

Emu3是由北京智源研究院开发的多模态模型，仅通过预测下一个标记训练而成，支持图像、文本和视频处理。

文本生成图像

Llama 3 EvoVLM JP V2

Llama-3-EvoVLM-JP-v2 是一款实验性通用日语视觉语言模型，支持交错输入文本和图像。该模型采用进化模型融合方法创建。

图像生成文本

Transformers 日语

Cephalo Idefics 2 Vision 10b Alpha

Cephalo是一系列专注于多模态材料科学的视觉大语言模型（V-LLMs），旨在整合视觉和语言数据，以促进人机交互或多智能体AI框架中的高级理解和交互。

图像生成文本

Transformers 其他

Open Llava Next Llama3 8b

一个开源的聊天机器人模型，通过在开源数据上微调整个模型进行训练，可用于多模态模型和聊天机器人的研究。

文本生成图像

Denseconnector V1.5 8B

DenseConnector 是一个开源聊天机器人，基于 LLaMA/Vicuna 微调，并利用 GPT 生成的多模态指令跟随数据进行训练。

图像生成文本

Cephalo Idefics 2 Vision 8b Alpha

Cephalo是一系列专注于多模态材料科学的视觉大语言模型（V-LLMs），旨在整合视觉和语言数据，以促进人机交互或多智能体AI框架中的高级理解和互动。

图像生成文本

Transformers 其他

Llava Jp 1.3b V1.1

LLaVA-JP是一个支持日语的多模态视觉语言模型，能够理解和生成关于输入图像的描述和对话。

图像生成文本

Transformers 日语

这是一个基于transformers的图像到文本转换模型，具体功能需进一步补充

图像生成文本

Llava Next Mistral 7b 4096

基于LLaVA-v1.6-Mistral-7B模型微调的多模态模型，支持图像和文本的联合理解与生成

文本生成图像

Llava V1.5 13b Dpo Gguf

LLaVA-v1.5-13B-DPO 是一个基于LLaVA框架的视觉语言模型，经过直接偏好优化(DPO)训练，并转换为GGUF量化格式以提高推理效率。

图像生成文本

LLaVA是一个开源的多模态聊天机器人，基于大语言模型微调训练而成，支持图像和文本的交互。

文本生成图像

Moe LLaVA StableLM 1.6B 4e

MoE-LLaVA是一种基于专家混合架构的大规模视觉语言模型，通过稀疏激活参数实现高效的多模态学习。

文本生成图像

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase