# 图像文本理解

Gemma 27B Chatml
Gemma 3是Google推出的轻量级、最先进的开源多模态模型家族,基于创建Gemini模型的相同研究和技术构建,支持文本和图像输入并生成文本输出。
图像生成文本 Transformers
G
NewEden
1,425
0
Gemma 3 4b It Qat Autoawq
Gemma 3是谷歌推出的轻量级开源多模态模型,基于Gemini技术构建,支持文本和图像输入,生成文本输出。
图像生成文本 Safetensors
G
gaunernst
503
1
Llama 4 Maverick 17B 128E
其他
Llama 4 Maverick是Meta开发的多模态AI模型,采用混合专家架构,支持文本和图像理解,具有170亿激活参数和4000亿总参数。
文本生成图像 Transformers 支持多种语言
L
meta-llama
3,261
69
Gemma 3 1b Pt Unsloth Bnb 4bit
Gemma 3是谷歌推出的轻量级开放模型系列,支持多模态输入(文本和图像),拥有128K大上下文窗口,适用于问答、摘要等多种任务。
图像生成文本 Transformers 英语
G
unsloth
4,481
3
Gemma 3 12b It GGUF
Gemma-3-12b-it-GGUF 是基于 Google 原始模型 google/gemma-3-12b-it 构建的量化模型,适用于图像文本到文本的任务。
大型语言模型 Transformers
G
gaianet
203
0
Qwen2 VL 7B Instruct GGUF
Apache-2.0
基于Qwen2-VL-7B-Instruct的多模态模型量化版本,支持图像文本到文本任务,适用于多种量化级别。
图像生成文本 英语
Q
XelotX
201
1
Razorback 12B V0.2
其他
Razorback 12B v0.2 是一个结合了Pixtral 12B和UnslopNemo v3优势的多模态模型,具备视觉理解和语言处理能力。
图像生成文本 Transformers 支持多种语言
R
nintwentydo
17
3
Glm Edge V 2b
其他
GLM-Edge-V-2B是一个基于Pytorch框架的图像文本到文本模型,支持中文处理。
图像生成文本
G
THUDM
23.43k
11
Llava 1.6 Mistral 7b Gguf
Apache-2.0
LLaVA是一个开源的多模态聊天机器人,通过在多模态指令跟随数据上微调LLM训练而成。本版本为GGUF量化版本,提供多种量化选项。
文本生成图像
L
cjpais
9,652
106
Llava Phi2
MIT
Llava-Phi2是基于Phi2的多模态实现,结合了视觉和语言处理能力,适用于图像文本到文本的任务。
图像生成文本 Transformers 英语
L
RaviNaik
153
6
Mmalaya
Apache-2.0
MMAlaya是基于大语言模型Alaya开发的多模态系统,包含大语言模型、图像文本特征编码器和特征转换模块三大核心组件。
图像生成文本 Transformers
M
DataCanvas
31
1
Llava V1.5 13B AWQ
LLaVA是一个开源的多模态聊天机器人,通过微调LLaMA/Vicuna在GPT生成的多模态指令跟随数据上进行训练。
文本生成图像 Transformers
L
TheBloke
141
35
Llava Pretrain Vicuna 7b V1.3
LLaVA 是一个开源多模态聊天机器人,基于 LLaMA/Vicuna 在 GPT 生成的多模态指令跟随数据上进行微调训练而成。
文本生成图像 Transformers
L
liuhaotian
54
1
Git Base Textvqa
MIT
基于microsoft/git-base-textvqa在textvqa数据集上微调的视觉问答模型,擅长处理包含文本的图像问答任务
大型语言模型 Transformers 其他
G
Hellraiser24
19
0
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase