# 多模态处理

Gemma 3n E2B It Unsloth Bnb 4bit
Gemma 3n-E2B-it 是 Google 推出的轻量级开源多模态模型,基于与 Gemini 相同技术构建,专为低资源设备优化。
图像生成文本 Transformers 英语
G
unsloth
4,914
2
Gemma 3n E2B
Gemma 3n是谷歌推出的轻量级、最先进的开源模型家族,支持多模态输入和输出。
图像生成文本 Transformers
G
google
206
11
Gemma 3n E4B It
Gemma 3n是Google推出的轻量级、最先进的开源多模态模型家族,基于与Gemini模型相同的研究和技术构建,支持文本、音频和视觉输入。
图像生成文本 Transformers
G
google
1,690
81
Nuextract 2.0 4B
MIT
NuExtract 2.0是专为结构化信息提取任务训练的多模态模型系列,支持文本和图像输入,具备多语言处理能力。
图像生成文本 Transformers
N
numind
272
3
Bart Large Empathetic Dialogues
该模型是一个基于transformers库的模型,具体用途和功能需要进一步的信息来确定。
大型语言模型 Transformers
B
sourname
199
1
Gemma 3 12b It Qat Bnb 4bit
Gemma 3是谷歌推出的轻量级多模态模型,基于与Gemini相同的技术构建,支持文本和图像输入,输出文本内容。具有128K大上下文窗口,支持超140种语言。
图像生成文本 Transformers
G
unsloth
2,180
0
Google.gemma 3 4b It Qat Int4 Unquantized GGUF
基于Gemma 3 4B的量化版本图像文本转文本模型,旨在让知识为大众所用
图像生成文本
G
DevQuasar
161
1
Gemma 27B Chatml
Gemma 3是Google推出的轻量级、最先进的开源多模态模型家族,基于创建Gemini模型的相同研究和技术构建,支持文本和图像输入并生成文本输出。
图像生成文本 Transformers
G
NewEden
1,425
0
Gemma 3 4b It Qat Compressed Tensors
Gemma 3 4B是基于Google技术的轻量级多模态模型,支持文本和图像输入,生成文本输出,适合资源有限环境部署。
图像生成文本 Safetensors
G
gaunernst
2,478
1
Gemma 3 4b It Qat Autoawq
Gemma 3是谷歌推出的轻量级开源多模态模型,基于Gemini技术构建,支持文本和图像输入,生成文本输出。
图像生成文本 Safetensors
G
gaunernst
503
1
Openclip ViT H 14 FARE2
MIT
基于Transformers库的稳健图像编码器模型,专注于图像特征提取任务
大型语言模型 Transformers
O
RCLIP
24
0
Mixtex Finetune
MIT
MixTex base_ZhEn 是一个支持中文和英语的图像转文本模型,基于MIT许可证发布。
图像生成文本 支持多种语言
M
wzmmmm
27
0
Gemma 3 Glitter 4B
基于Gemma 3 4B模型,采用与Glitter 12b相同的数据混合方案优化的模型
大型语言模型 Safetensors
G
allura-org
140
3
Smoldocling 256M Preview Mlx Fp16
Apache-2.0
该模型是从 ds4sd/SmolDocling-256M-preview 转换为 MLX 格式的视觉语言模型,支持图像文本到文本任务。
图像生成文本 Transformers 英语
S
ahishamm
24
1
Gemma 3 27b Pt Bnb 4bit
Gemma 3是谷歌推出的轻量级开放模型系列,基于与Gemini模型相同的研究和技术构建,支持多模态输入和文本输出。
图像生成文本 Transformers 英语
G
unsloth
2,009
1
Gemma 3 12b Pt Bnb 4bit
Gemma 3是谷歌推出的轻量级开放模型系列,基于与Gemini相同技术构建,支持多模态输入和文本生成。
图像生成文本 Transformers 英语
G
unsloth
2,509
0
Gemma 3 1b Pt Unsloth Bnb 4bit
Gemma 3是谷歌推出的轻量级开放模型系列,支持多模态输入(文本和图像),拥有128K大上下文窗口,适用于问答、摘要等多种任务。
图像生成文本 Transformers 英语
G
unsloth
4,481
3
Gemma 3 27b It GGUF
Gemma-3-27b-it是Google发布的27B参数规模的量化版本大语言模型,专注于图像文本转换任务。
大型语言模型 Transformers
G
gaianet
2,047
0
Gemma 3 27b It GGUF
Gemma-3-27b-it-GGUF 是基于 Google 的 Gemma-3-27b-it 模型经过量化处理的版本,适用于图像文本到文本的任务。
文本生成图像 Transformers
G
second-state
2,024
0
Bytedance Research.ui TARS 7B DPO GGUF
UI-TARS-7B-DPO 的量化版本,致力于让知识为大众所共享。
图像生成文本
B
DevQuasar
197
0
Kaleidoscope Large V1
基于sberbank-ai/ruBert-large微调的文档问答专用模型,支持俄语和英语的文档问答任务。
问答系统 Transformers 支持多种语言
K
2KKLabs
214
2
Kaleidoscope Large V1
基于sberbank-ai/ruBert-large微调的文档问答模型,擅长从文档中提取答案,支持俄语和英语。
问答系统 Transformers 支持多种语言
K
LaciaStudio
297
0
Kaleidoscope Small V1
基于sberbank-ai/ruBert-base微调的文档问答模型,擅长从文档上下文中提取答案,支持俄语和英语。
问答系统 Transformers 支持多种语言
K
2KKLabs
98
0
Ola Image
Apache-2.0
Ola-7B是由腾讯、清华大学和南洋理工大学联合开发的多模态语言模型,基于Qwen2.5架构,支持处理图像、视频、音频和文本输入,并输出文本。
多模态融合 支持多种语言
O
THUdyh
61
3
Ola 7b
Apache-2.0
Ola-7B是由腾讯、清华大学和南洋理工大学联合开发的多模态大语言模型,基于Qwen2.5架构,支持处理文本、图像、视频和音频输入,并生成文本输出。
多模态融合 Safetensors 支持多种语言
O
THUdyh
1,020
37
Mineru
Apache-2.0
该模型能够将PDF文档转换为Markdown格式,保持原始文档排版结构,准确识别数学公式和表格。
图像生成文本 Transformers 支持多种语言
M
kitjesen
122
12
Florence 2 FT DocVQA
MIT
基于Florence-2-base微调的文档视觉问答模型,专门用于处理文档图像中的问答任务。
图像生成文本 Transformers 英语
F
sahilnishad
4,928
0
Longvu Llama3 2 1B
Apache-2.0
LongVU 是一种面向长视频语言理解的时空自适应压缩技术,旨在高效处理长视频内容,提升语言理解能力。
视频生成文本
L
Vision-CAIR
465
11
Oryx 1.5 7B
Apache-2.0
Oryx-1.5-7B是基于Qwen2.5语言模型开发的7B参数模型,支持32K tokens上下文窗口,专注于高效处理任意空间尺寸和时长的视觉输入。
文本生成视频 Safetensors 支持多种语言
O
THUdyh
133
7
Longvu Llama3 2 3B
Apache-2.0
LongVU是一种面向长视频语言理解的时空自适应压缩技术,旨在高效处理长视频内容。
视频生成文本 PyTorch
L
Vision-CAIR
1,079
7
H2ovl Mississippi 800m
Apache-2.0
H2O.ai推出的8亿参数视觉语言模型,专注于OCR和文档理解,性能优异
图像生成文本 Transformers 英语
H
h2oai
77.67k
33
Florence 2 DocVQA
基于微软Florence-2模型使用Docmatix数据集(5%数据量)微调1天的版本,适用于图像文本理解任务
文本生成图像 Transformers
F
impactframes
30
1
Pixtral 12b Nf4
Apache-2.0
基于Mistral社区Pixtral-12B的4位量化版本,专注于图像文本到文本任务,支持中文描述生成
图像生成文本 Transformers
P
SeanScripts
236
20
Florence 2 Large Florence 2 Large Nsfw Pretrain Gt
该模型是一个基于transformers库的模型,具体功能和用途需要进一步信息确认。
大型语言模型 Transformers
F
ljnlonoljpiljm
55
6
Ucmt Sam On Depth
MIT
基于PyTorch实现的掩码生成模型,通过PytorchModelHubMixin集成推送至Hub
图像分割
U
weihao1115
35
1
TF ID Large No Caption
MIT
TF-ID是一系列目标检测模型,专门用于提取学术论文中的表格和图片及其标题文本。
图像生成文本 Transformers
T
yifeihu
1,944
2
Ecot Openvla 7b Oxe
适用于机器人控制任务的预训练Transformer模型,支持运动规划、物体抓取等基础功能
大型语言模型 Transformers
E
Embodied-CoT
2,003
0
Florence 2 DocVQA
这是微软Florence-2模型使用Docmatix数据集(5%数据量)以1e-6学习率微调1天后的版本
文本生成图像 Transformers
F
HuggingFaceM4
3,096
60
Horus OCR
Donut 是一个基于 Transformer 的图像转文本模型,能够从图像中提取和生成文本内容。
图像生成文本 Transformers
H
TeeA
21
0
Kosmos 2 PokemonCards Trl Merged
这是一个基于微软Kosmos-2模型微调的多模态模型,专门用于识别宝可梦卡牌中的宝可梦名称。
图像生成文本 Transformers 英语
K
Mit1208
51
1
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase