Blip Arabic Flickr 8k
MIT
基于BLIP架构微调的阿拉伯语图像字幕生成模型,专门针对Flickr8k阿拉伯语数据集优化
图像生成文本
Transformers 支持多种语言

B
omarsabri8756
56
1
Skywork R1V2 38B
MIT
天工-R1V2-38B是当前最先进的开源多模态推理模型,在多项基准测试中表现卓越,具备强大的视觉推理与文本理解能力。
图像生成文本
Transformers

S
Skywork
1,778
105
Skywork VL Reward 7B
MIT
Skywork-VL-Reward-7B是一个7B参数的多模态奖励模型,基于Qwen2.5-VL-7B-Instruct架构,增加了用于训练奖励模型的价值头结构。
多模态融合
Transformers

S
Skywork
30
8
Emova Qwen 2 5 3b
Apache-2.0
EMOVA是一种端到端全能模态大语言模型,支持视觉、听觉和语音功能,能够生成具有情感控制的文本和语音响应。
多模态融合
Transformers 支持多种语言

E
Emova-ollm
25
2
Gemma 3 4b It Qat GGUF
Gemma 3是谷歌推出的轻量级先进开放模型系列,基于创建Gemini模型的相同研究和技术构建。该模型是多模态的,能够处理文本和图像输入并生成文本输出。
文本生成图像 英语
G
unsloth
2,629
2
VL Rethinker 7B Mlx 4bit
Apache-2.0
VL-Rethinker-7B 4位MLX量化版是基于TIGER-Lab/VL-Rethinker-7B模型的量化版本,专为苹果设备优化,支持视觉问答任务。
文本生成图像 英语
V
TheCluster
14
0
Llama 3.2 11B Vision Radiology Mini
这是一个基于Llama架构的多模态模型,支持视觉和文本指令,经过4位量化优化。
图像生成文本
L
p4rzvl
69
0
Internvl3 78B Pretrained
其他
InternVL3-78B是OpenGVLab推出的先进多模态大语言模型,展现卓越的综合性能。相比前代InternVL 2.5,具备更强大的多模态感知与推理能力,并将能力拓展至工具使用、GUI代理、工业图像分析、3D视觉感知等新领域。
文本生成图像
Transformers 其他

I
OpenGVLab
22
1
VL Rethinker 7B Fp16
Apache-2.0
该模型是基于Qwen2.5-VL-7B-Instruct转换而来的多模态视觉语言模型,支持视觉问答任务。
文本生成图像
Transformers 英语

V
mlx-community
17
0
VL Rethinker 72B 4bit
Apache-2.0
VL-Rethinker-72B-4bit是一个基于Qwen2.5-VL-7B-Instruct的多模态模型,支持视觉问答任务,已转换为MLX格式以便在苹果设备上高效运行。
文本生成图像
Transformers 英语

V
mlx-community
26
0
Qwen2.5 VL 7B Instruct Gptqmodel Int8
MIT
基于Qwen2.5-VL-7B-Instruct模型进行GPTQ-INT8量化的视觉语言模型
图像生成文本
Transformers 支持多种语言

Q
wanzhenchn
101
0
Llama 4 Maverick 17B 128E Instruct 6bit
其他
基于Meta Llama 4模型转换的6位量化版本,支持多语言指令交互
大型语言模型
Transformers 支持多种语言

L
mlx-community
350
0
Vora 7B Base
VoRA是一个基于7B参数的视觉语言模型,能够处理图像和文本输入,生成文本输出。
图像生成文本
Transformers

V
Hon-Wong
62
4
Qwen2.5 VL 72B Instruct GGUF
其他
Qwen2.5-VL-72B-Instruct是一个72B参数规模的多模态大模型,支持视觉-语言任务,能够理解和生成与图像相关的文本内容。
文本生成图像 英语
Q
Mungert
2,798
5
Qwen Qwen2.5 VL 32B Instruct GGUF
Apache-2.0
Qwen2.5-VL-32B-Instruct是一个32B参数规模的多模态视觉语言模型,支持图像理解和文本生成任务。
文本生成图像 英语
Q
bartowski
2,782
1
3B Curr ReFT
Apache-2.0
基于Qwen2.5-VL通过创新性Curr-ReFT方法微调的多模态大语言模型,显著提升了视觉语言理解与推理能力。
文本生成图像
3
ZTE-AIM
37
3
Internvl2 5 HiMTok 8B
Apache-2.0
HiMTok是一个基于InternVL2_5-8B大型多模态模型微调的分层掩码标记学习框架,专注于图像分割任务。
图像生成文本
I
yayafengzi
16
3
Rexseek 3B
其他
这是一个图像文本到文本的转换模型,能够处理图像和文本输入,生成相应的文本输出。
文本生成图像
Transformers

R
IDEA-Research
186
4
Qwen2 VL 7B Captioner Relaxed GGUF
Apache-2.0
该模型是基于Qwen2-VL-7B-Captioner-Relaxed转换的GGUF格式版本,专为图像转文本任务优化,支持通过llama.cpp和Koboldcpp等工具运行。
图像生成文本 英语
Q
r3b31
321
1
Mmmamba Linear
MIT
mmMamba-linear是首个通过中等学术计算资源实现二次到线性蒸馏的纯解码器多模态状态空间模型,具有高效的多模态处理能力。
图像生成文本
Transformers

M
hustvl
16
3
Qwen2 Vl 7b Rslora Offensive Meme Singapore
MIT
针对新加坡语境下冒犯性表情包分类的视觉语言模型,基于Qwen2-VL-7B-Instruct微调
多模态融合
Transformers 英语

Q
aliencaocao
1,684
0
Mulberry Qwen2vl 7b
Apache-2.0
桑葚模型是一个基于逐步推理的模型,通过集体知识搜索生成的Mulberry - 260K SFT数据集上进行训练。
文本生成图像
Transformers

M
HuanjinYao
13.57k
1
Deepseer R1 Vision Distill Qwen 1.5B Google Vit Base Patch16 224
Apache-2.0
DeepSeer是基于DeepSeek-R1模型开发的视觉语言模型,支持思维链推理能力,通过对话模板训练视觉模型。
图像生成文本
Transformers

D
mehmetkeremturkcan
25
2
Migician
Apache-2.0
魔术师是首个具备自由形式多图像定位能力的多模态大语言模型,在复杂多图像场景中实现精确定位,性能超越70B规模模型。
文本生成图像
Transformers 英语

M
Michael4933
83
1
Open LLaVA NeXT LLaMA3 8B
Apache-2.0
一个开源的聊天机器人模型,通过在开源数据上微调整个模型进行训练,可用于多模态模型和聊天机器人的研究。
文本生成图像
Safetensors
O
Share4oReasoning
215
0
Qwen2 VL 7B Instruct GGUF
Apache-2.0
Qwen2-VL-7B-Instruct 是一个多模态视觉语言模型,支持图像和文本的联合理解与生成。
文本生成图像
Transformers 英语

Q
tensorblock
124
0
Minivla Vq Libero90 Prismatic
MIT
MiniVLA是一个轻量级的视觉语言模型,兼容Prismatic VLMs训练框架,支持图像文本到文本的多模态任务。
图像生成文本
Transformers 英语

M
Stanford-ILIAD
31
0
Glm Edge V 5b
其他
GLM-Edge-V-5B是一个50亿参数的多模态模型,支持图像和文本输入,能够执行图像理解和文本生成任务。
图像生成文本
G
THUDM
4,357
12
Emu3 Stage1
Apache-2.0
Emu3是由北京智源研究院开发的多模态模型,仅通过预测下一个标记训练而成,支持图像、文本和视频处理。
文本生成图像
Transformers

E
BAAI
1,359
26
Llama 3 EvoVLM JP V2
Llama-3-EvoVLM-JP-v2 是一款实验性通用日语视觉语言模型,支持交错输入文本和图像。该模型采用进化模型融合方法创建。
图像生成文本
Transformers 日语

L
SakanaAI
475
20
Cephalo Idefics 2 Vision 10b Alpha
Apache-2.0
Cephalo是一系列专注于多模态材料科学的视觉大语言模型(V-LLMs),旨在整合视觉和语言数据,以促进人机交互或多智能体AI框架中的高级理解和交互。
图像生成文本
Transformers 其他

C
lamm-mit
137
1
Open Llava Next Llama3 8b
Apache-2.0
一个开源的聊天机器人模型,通过在开源数据上微调整个模型进行训练,可用于多模态模型和聊天机器人的研究。
文本生成图像
Transformers

O
Lin-Chen
323
26
Denseconnector V1.5 8B
DenseConnector 是一个开源聊天机器人,基于 LLaMA/Vicuna 微调,并利用 GPT 生成的多模态指令跟随数据进行训练。
图像生成文本
Transformers

D
HuanjinYao
17
7
Cephalo Idefics 2 Vision 8b Alpha
Apache-2.0
Cephalo是一系列专注于多模态材料科学的视觉大语言模型(V-LLMs),旨在整合视觉和语言数据,以促进人机交互或多智能体AI框架中的高级理解和互动。
图像生成文本
Transformers 其他

C
lamm-mit
150
1
Llava Jp 1.3b V1.1
LLaVA-JP是一个支持日语的多模态视觉语言模型,能够理解和生成关于输入图像的描述和对话。
图像生成文本
Transformers 日语

L
toshi456
90
11
Image Model
这是一个基于transformers的图像到文本转换模型,具体功能需进一步补充
图像生成文本
Transformers

I
Mouwiya
15
0
Llava Next Mistral 7b 4096
基于LLaVA-v1.6-Mistral-7B模型微调的多模态模型,支持图像和文本的联合理解与生成
文本生成图像
Transformers

L
Mantis-VL
40
2
Llava V1.5 13b Dpo Gguf
LLaVA-v1.5-13B-DPO 是一个基于LLaVA框架的视觉语言模型,经过直接偏好优化(DPO)训练,并转换为GGUF量化格式以提高推理效率。
图像生成文本
L
antiven0m
30
0
Llava V1.6 34b
Apache-2.0
LLaVA是一个开源的多模态聊天机器人,基于大语言模型微调训练而成,支持图像和文本的交互。
文本生成图像
L
liuhaotian
9,033
351
Moe LLaVA StableLM 1.6B 4e
Apache-2.0
MoE-LLaVA是一种基于专家混合架构的大规模视觉语言模型,通过稀疏激活参数实现高效的多模态学习。
文本生成图像
Transformers

M
LanguageBind
125
8
- 1
- 2
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98