GLM 4.1V 9B Thinking
MIT
GLM-4.1V-9B-Thinking是基于GLM-4-9B-0414基础模型的开源视觉语言模型,专注于提升复杂任务中的推理能力,支持64k上下文长度和4K图像分辨率。
图像生成文本
Transformers 支持多种语言

G
THUDM
163
95
Kimi VL A3B Thinking 2506
MIT
Kimi-VL-A3B-Thinking-2506 是 Kimi-VL-A3B-Thinking 的升级版,在多模态推理、视觉感知与理解、视频场景处理等方面有显著提升,支持更高分辨率图像,且能在消耗更少令牌的情况下实现更智能的思考。
图像生成文本
Transformers

K
moonshotai
515
67
Magistral Small 2506 Vision
Apache-2.0
Magistral-Small-2506-Vision 是一个基于 Mistral Small 3.1 进行 GRPO 训练的推理微调版本,具备视觉能力的实验性检查点。
图像生成文本
Safetensors 支持多种语言
M
OptimusePrime
125
5
RT DETR L Wireless Table Cell Det
Apache-2.0
RT-DETR-L_wireless_table_cell_det 是一个高精度的表格单元格检测模型,专为表格识别任务设计,能够准确定位和标记表格图像中的每个单元格区域。
文字识别 支持多种语言
R
PaddlePaddle
1,144
0
Stockmark 2 VL 100B Beta
其他
Stockmark-2-VL-100B-beta 是一款具有1000亿参数的日语专用视觉语言模型,具备思维链(CoT)推理能力,可用于文档阅读理解。
图像生成文本
Transformers 支持多种语言

S
stockmark
184
8
Internvl3 14B Instruct GGUF
Apache-2.0
InternVL3-14B-Instruct 是一个先进的多模态大语言模型(MLLM),展示了卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种任务。
图像生成文本
Transformers

I
unsloth
982
1
Internvl3 8B Instruct GGUF
Apache-2.0
InternVL3-8B-Instruct 是一个先进的多模态大语言模型(MLLM),展示了卓越的整体性能,具备强大的多模态感知和推理能力。
文本生成图像
Transformers

I
unsloth
2,412
1
Internvl3 8B
Apache-2.0
InternVL3-8B 是一款先进的多模态大语言模型,具备卓越的多模态感知和推理能力,能处理图像、视频等多模态数据。
多模态对齐
Transformers

I
unsloth
224
1
Internvl3 1B GGUF
Apache-2.0
InternVL3-1B是一款先进的多模态大语言模型,在多模态感知、推理等能力上表现出色,还拓展了工具使用、GUI代理等多模态能力。
多模态融合
Transformers

I
unsloth
868
2
Visionreasoner 7B
Apache-2.0
VisionReasoner-7B是一个图像文本到文本的模型,采用解耦架构,由推理模型和分割模型组成,能解读用户意图并生成像素级掩码。
图像生成文本
Transformers 英语

V
Ricky06662
2,398
1
Qwen2.5 VL 32B Instruct FP8 Dynamic
Apache-2.0
基于Qwen2.5-VL-32B-Instruct模型的FP8量化版本,支持视觉-文本输入和文本输出,适用于高效推理场景。
图像生成文本
Transformers 英语

Q
BCCard
140
1
Gemma 3 27b It FP8 Dynamic
Apache-2.0
这是google/gemma-3-27b-it的量化版本,采用FP8数据类型对权重进行量化,适用于视觉-文本输入并输出文本,可借助vLLM高效部署进行推理。
图像生成文本
Transformers 英语

G
RedHatAI
1,608
1
Qwen3 8B
Apache-2.0
Qwen3-8B 是 Qwen 系列的最新大语言模型,具备多种先进特性,支持多语言,在推理、指令跟随等方面表现出色,能为用户带来更智能、自然的交互体验。
大型语言模型
Transformers

Q
unsloth
30.23k
5
Bespoke MiniChart 7B
由Bespoke Labs开发的7B参数规模开源图表理解视觉语言模型,在图表问答任务上超越Gemini-1.5-Pro等闭源模型
文本生成图像 英语
B
bespokelabs
437
12
Skywork R1V2 38B
MIT
天工-R1V2-38B是当前最先进的开源多模态推理模型,在多项基准测试中表现卓越,具备强大的视觉推理与文本理解能力。
图像生成文本
Transformers

S
Skywork
1,778
105
Vica2 Init
Apache-2.0
ViCA2是一个多模态视觉语言模型,专注于视频理解和视觉空间认知任务。
视频生成文本
Transformers 英语

V
nkkbr
30
0
Vica2 Stage2 Onevision Ft
Apache-2.0
ViCA2是一个7B参数规模的多模态视觉语言模型,专注于视频理解和视觉空间认知任务。
视频生成文本
Transformers 英语

V
nkkbr
63
0
Internvl3 78B Hf
其他
InternVL3 是一个先进的多模态大语言模型系列,具备强大的多模态感知和推理能力,支持图像、视频和文本输入。
图像生成文本
Transformers 其他

I
OpenGVLab
40
1
Synthia S1 27b Bnb 4bit
Synthia-S1-27b是由Tesslate AI开发的高级推理AI模型,专注于逻辑推理、编码和角色扮演任务。
文本生成图像
Transformers

S
GusPuffy
858
1
Spacethinker Qwen2.5VL 3B
Apache-2.0
SpaceThinker是一款通过测试时计算增强空间推理能力的多模态视觉语言模型,特别擅长定量空间推理和物体关系分析。
文本生成图像 英语
S
remyxai
490
7
Internvl3 9B AWQ
MIT
InternVL3-9B是InternVL3系列中的一款多模态大语言模型,具备卓越的多模态感知与推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种应用场景。
文本生成图像
Transformers 其他

I
OpenGVLab
214
1
Internvl3 8B AWQ
其他
InternVL3-8B是OpenGVLab推出的先进多模态大语言模型,具备强大的多模态感知与推理能力,支持工具调用、GUI智能体、工业图像分析、3D视觉感知等新领域。
图像生成文本
Transformers 其他

I
OpenGVLab
1,441
3
TBAC VLR1 3B Preview
Apache-2.0
由腾讯PCG基础算法中心微调的多模态语言模型,基于Qwen2.5-VL-3B-Instruct优化,在同规模模型中实现多项多模态推理基准的最先进性能
图像生成文本 英语
T
TencentBAC
328
11
Internvl3 9B Instruct
MIT
InternVL3-9B-Instruct 是 InternVL3 系列的监督微调版本,具备强大的多模态感知和推理能力,支持图像、文本、视频等多种模态处理。
图像生成文本
Transformers 其他

I
OpenGVLab
220
2
Internvl3 8B Instruct
其他
InternVL3-8B-Instruct 是一个先进的多模态大语言模型(MLLM),展示了卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种功能。
图像生成文本
Transformers 其他

I
OpenGVLab
885
2
Mistral Small 3.1 24B Instruct 2503 Quantized.w4a16
Apache-2.0
这是一个经过INT4量化的Mistral-Small-3.1-24B-Instruct-2503模型,由Red Hat (Neural Magic)优化发布,适用于快速响应的对话代理和低延迟推理场景。
文本生成图像
Safetensors 支持多种语言
M
RedHatAI
219
1
VL Reasoner 7B
Apache-2.0
VL-Reasoner-7B 是一个基于 GRPO-SSR 技术训练的多模态推理模型,在多项多模态推理基准测试中表现卓越。
文本生成图像
Transformers 英语

V
TIGER-Lab
126
1
General Reasoner 14B Preview
Apache-2.0
基于Qwen2.5-14B基础模型和VisualWebInstruct-Verified数据集训练的多模态推理模型,支持英语任务处理。
大型语言模型
Transformers 英语

G
TIGER-Lab
33
3
Spaceqwen2.5 VL 3B Instruct GGUF
Apache-2.0
SpaceQwen2.5-VL-3B-Instruct 是一个多模态视觉语言模型,专注于空间推理和具身智能任务。
文本生成图像 英语
S
mradermacher
282
0
R01 Gemma 3 1b It
Gemma 3是谷歌推出的轻量级开源多模态模型,基于与Gemini相同技术构建,支持文本和图像输入并生成文本输出。
文本生成图像
Transformers 英语

R
EpistemeAI
17
1
Cogito V1
Apache-2.0
DeepCogito推出的通过迭代蒸馏与放大(IDA)训练的强大混合推理模型,在编程、STEM、多语言和智能体应用场景中表现卓越。
大型语言模型
C
cortexso
4,002
2
Space Voice Label Detect Beta
Apache-2.0
基于Qwen2.5-VL-3B模型的微调版本,使用Unsloth和Huggingface TRL库进行训练,推理速度提升2倍
文本生成图像
Transformers 英语

S
devJy
38
1
Dreamer 7B
Apache-2.0
WebDreamer 是一个规划框架,能够为现实世界中的网页智能体任务实现高效且有效的规划。
图像生成文本
Transformers 英语

D
osunlp
62
3
Gemma 3 27b It GGUF
Gemma 3 27B参数的GGUF量化版本,支持图像文本交互任务
文本生成图像
G
Mungert
4,034
6
3B Curr ReFT
Apache-2.0
基于Qwen2.5-VL通过创新性Curr-ReFT方法微调的多模态大语言模型,显著提升了视觉语言理解与推理能力。
文本生成图像
3
ZTE-AIM
37
3
STEVE R1 7B SFT I1 GGUF
Apache-2.0
这是对Fanbin/STEVE-R1-7B-SFT模型进行的加权/矩阵量化版本,适用于资源受限环境。
文本生成图像 英语
S
mradermacher
394
0
Videomind 2B
Bsd-3-clause
VideoMind是一个多模态智能体框架,通过模拟人类思维的处理流程(如任务拆解、时刻定位与验证和答案合成)来增强视频推理能力。
视频生成文本
V
yeliudev
207
1
Mistral Small 3.1 24B Instruct 2503 GPTQ 4b 128g
Apache-2.0
本模型是对Mistral-Small-3.1-24B-Instruct-2503进行INT4量化的版本,通过GPTQ算法将权重从16位降至4位,显著减少磁盘大小和GPU内存需求。
大型语言模型
M
ISTA-DASLab
21.89k
13
Vintern 3B R Beta
MIT
Vintern-3B-R-beta是一个多模态大语言模型,专注于基于图像的复杂推理任务,能分解推理步骤并有效控制幻觉现象。
图像生成文本
Transformers 支持多种语言

V
5CD-AI
1,841
14
Llama 3.2 11B Vision Medical
Apache-2.0
基于unsloth/Llama-3.2-11B-Vision-Instruct微调的模型,使用Unsloth和Huggingface的TRL库进行训练,速度提升了2倍。
文本生成图像
Transformers 英语

L
Varu96
25
1
- 1
- 2
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98