多模态推理

# 多模态推理

GLM 4.1V 9B Thinking

GLM-4.1V-9B-Thinking是基于GLM-4-9B-0414基础模型的开源视觉语言模型，专注于提升复杂任务中的推理能力，支持64k上下文长度和4K图像分辨率。

图像生成文本

Transformers 支持多种语言

Kimi VL A3B Thinking 2506

Kimi-VL-A3B-Thinking-2506 是 Kimi-VL-A3B-Thinking 的升级版，在多模态推理、视觉感知与理解、视频场景处理等方面有显著提升，支持更高分辨率图像，且能在消耗更少令牌的情况下实现更智能的思考。

图像生成文本

Magistral Small 2506 Vision

Magistral-Small-2506-Vision 是一个基于 Mistral Small 3.1 进行 GRPO 训练的推理微调版本，具备视觉能力的实验性检查点。

图像生成文本

Safetensors 支持多种语言

RT DETR L Wireless Table Cell Det

RT-DETR-L_wireless_table_cell_det 是一个高精度的表格单元格检测模型，专为表格识别任务设计，能够准确定位和标记表格图像中的每个单元格区域。

文字识别支持多种语言

Stockmark 2 VL 100B Beta

Stockmark-2-VL-100B-beta 是一款具有1000亿参数的日语专用视觉语言模型，具备思维链（CoT）推理能力，可用于文档阅读理解。

图像生成文本

Transformers 支持多种语言

Internvl3 14B Instruct GGUF

InternVL3-14B-Instruct 是一个先进的多模态大语言模型（MLLM），展示了卓越的多模态感知和推理能力，支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种任务。

图像生成文本

Internvl3 8B Instruct GGUF

InternVL3-8B-Instruct 是一个先进的多模态大语言模型（MLLM），展示了卓越的整体性能，具备强大的多模态感知和推理能力。

文本生成图像

InternVL3-8B 是一款先进的多模态大语言模型，具备卓越的多模态感知和推理能力，能处理图像、视频等多模态数据。

多模态对齐

Internvl3 1B GGUF

InternVL3-1B是一款先进的多模态大语言模型，在多模态感知、推理等能力上表现出色，还拓展了工具使用、GUI代理等多模态能力。

多模态融合

Visionreasoner 7B

VisionReasoner-7B是一个图像文本到文本的模型，采用解耦架构，由推理模型和分割模型组成，能解读用户意图并生成像素级掩码。

图像生成文本

Transformers 英语

Qwen2.5 VL 32B Instruct FP8 Dynamic

基于Qwen2.5-VL-32B-Instruct模型的FP8量化版本，支持视觉-文本输入和文本输出，适用于高效推理场景。

图像生成文本

Transformers 英语

Gemma 3 27b It FP8 Dynamic

这是google/gemma-3-27b-it的量化版本，采用FP8数据类型对权重进行量化，适用于视觉-文本输入并输出文本，可借助vLLM高效部署进行推理。

图像生成文本

Transformers 英语

Qwen3-8B 是 Qwen 系列的最新大语言模型，具备多种先进特性，支持多语言，在推理、指令跟随等方面表现出色，能为用户带来更智能、自然的交互体验。

大型语言模型

Bespoke MiniChart 7B

由Bespoke Labs开发的7B参数规模开源图表理解视觉语言模型，在图表问答任务上超越Gemini-1.5-Pro等闭源模型

文本生成图像英语

Skywork R1V2 38B

天工-R1V2-38B是当前最先进的开源多模态推理模型，在多项基准测试中表现卓越，具备强大的视觉推理与文本理解能力。

图像生成文本

ViCA2是一个多模态视觉语言模型，专注于视频理解和视觉空间认知任务。

视频生成文本

Transformers 英语

Vica2 Stage2 Onevision Ft

ViCA2是一个7B参数规模的多模态视觉语言模型，专注于视频理解和视觉空间认知任务。

视频生成文本

Transformers 英语

Internvl3 78B Hf

InternVL3 是一个先进的多模态大语言模型系列，具备强大的多模态感知和推理能力，支持图像、视频和文本输入。

图像生成文本

Transformers 其他

Synthia S1 27b Bnb 4bit

Synthia-S1-27b是由Tesslate AI开发的高级推理AI模型，专注于逻辑推理、编码和角色扮演任务。

文本生成图像

Spacethinker Qwen2.5VL 3B

SpaceThinker是一款通过测试时计算增强空间推理能力的多模态视觉语言模型，特别擅长定量空间推理和物体关系分析。

文本生成图像英语

Internvl3 9B AWQ

InternVL3-9B是InternVL3系列中的一款多模态大语言模型，具备卓越的多模态感知与推理能力，支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种应用场景。

文本生成图像

Transformers 其他

Internvl3 8B AWQ

InternVL3-8B是OpenGVLab推出的先进多模态大语言模型，具备强大的多模态感知与推理能力，支持工具调用、GUI智能体、工业图像分析、3D视觉感知等新领域。

图像生成文本

Transformers 其他

TBAC VLR1 3B Preview

由腾讯PCG基础算法中心微调的多模态语言模型，基于Qwen2.5-VL-3B-Instruct优化，在同规模模型中实现多项多模态推理基准的最先进性能

图像生成文本英语

Internvl3 9B Instruct

InternVL3-9B-Instruct 是 InternVL3 系列的监督微调版本，具备强大的多模态感知和推理能力，支持图像、文本、视频等多种模态处理。

图像生成文本

Transformers 其他

Internvl3 8B Instruct

InternVL3-8B-Instruct 是一个先进的多模态大语言模型（MLLM），展示了卓越的多模态感知和推理能力，支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种功能。

图像生成文本

Transformers 其他

Mistral Small 3.1 24B Instruct 2503 Quantized.w4a16

这是一个经过INT4量化的Mistral-Small-3.1-24B-Instruct-2503模型，由Red Hat (Neural Magic)优化发布，适用于快速响应的对话代理和低延迟推理场景。

文本生成图像

Safetensors 支持多种语言

VL-Reasoner-7B 是一个基于 GRPO-SSR 技术训练的多模态推理模型，在多项多模态推理基准测试中表现卓越。

文本生成图像

Transformers 英语

General Reasoner 14B Preview

基于Qwen2.5-14B基础模型和VisualWebInstruct-Verified数据集训练的多模态推理模型，支持英语任务处理。

大型语言模型

Transformers 英语

Spaceqwen2.5 VL 3B Instruct GGUF

SpaceQwen2.5-VL-3B-Instruct 是一个多模态视觉语言模型，专注于空间推理和具身智能任务。

文本生成图像英语

R01 Gemma 3 1b It

Gemma 3是谷歌推出的轻量级开源多模态模型，基于与Gemini相同技术构建，支持文本和图像输入并生成文本输出。

文本生成图像

Transformers 英语

DeepCogito推出的通过迭代蒸馏与放大（IDA）训练的强大混合推理模型，在编程、STEM、多语言和智能体应用场景中表现卓越。

大型语言模型

Space Voice Label Detect Beta

基于Qwen2.5-VL-3B模型的微调版本，使用Unsloth和Huggingface TRL库进行训练，推理速度提升2倍

文本生成图像

Transformers 英语

WebDreamer 是一个规划框架，能够为现实世界中的网页智能体任务实现高效且有效的规划。

图像生成文本

Transformers 英语

Gemma 3 27b It GGUF

Gemma 3 27B参数的GGUF量化版本，支持图像文本交互任务

文本生成图像

基于Qwen2.5-VL通过创新性Curr-ReFT方法微调的多模态大语言模型，显著提升了视觉语言理解与推理能力。

文本生成图像

STEVE R1 7B SFT I1 GGUF

这是对Fanbin/STEVE-R1-7B-SFT模型进行的加权/矩阵量化版本，适用于资源受限环境。

文本生成图像英语

VideoMind是一个多模态智能体框架，通过模拟人类思维的处理流程（如任务拆解、时刻定位与验证和答案合成）来增强视频推理能力。

视频生成文本

Mistral Small 3.1 24B Instruct 2503 GPTQ 4b 128g

本模型是对Mistral-Small-3.1-24B-Instruct-2503进行INT4量化的版本，通过GPTQ算法将权重从16位降至4位，显著减少磁盘大小和GPU内存需求。

大型语言模型

Vintern 3B R Beta

Vintern-3B-R-beta是一个多模态大语言模型，专注于基于图像的复杂推理任务，能分解推理步骤并有效控制幻觉现象。

图像生成文本

Transformers 支持多种语言

Llama 3.2 11B Vision Medical

基于unsloth/Llama-3.2-11B-Vision-Instruct微调的模型，使用Unsloth和Huggingface的TRL库进行训练，速度提升了2倍。

文本生成图像

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase