多模态处理

# 多模态处理

Gemma 3n E2B It Unsloth Bnb 4bit

Gemma 3n-E2B-it 是 Google 推出的轻量级开源多模态模型，基于与 Gemini 相同技术构建，专为低资源设备优化。

图像生成文本

Transformers 英语

Gemma 3n是谷歌推出的轻量级、最先进的开源模型家族，支持多模态输入和输出。

图像生成文本

Gemma 3n E4B It

Gemma 3n是Google推出的轻量级、最先进的开源多模态模型家族，基于与Gemini模型相同的研究和技术构建，支持文本、音频和视觉输入。

图像生成文本

Nuextract 2.0 4B

NuExtract 2.0是专为结构化信息提取任务训练的多模态模型系列，支持文本和图像输入，具备多语言处理能力。

图像生成文本

Bart Large Empathetic Dialogues

该模型是一个基于transformers库的模型，具体用途和功能需要进一步的信息来确定。

大型语言模型

Gemma 3 12b It Qat Bnb 4bit

Gemma 3是谷歌推出的轻量级多模态模型，基于与Gemini相同的技术构建，支持文本和图像输入，输出文本内容。具有128K大上下文窗口，支持超140种语言。

图像生成文本

Google.gemma 3 4b It Qat Int4 Unquantized GGUF

基于Gemma 3 4B的量化版本图像文本转文本模型，旨在让知识为大众所用

图像生成文本

Gemma 27B Chatml

Gemma 3是Google推出的轻量级、最先进的开源多模态模型家族，基于创建Gemini模型的相同研究和技术构建，支持文本和图像输入并生成文本输出。

图像生成文本

Gemma 3 4b It Qat Compressed Tensors

Gemma 3 4B是基于Google技术的轻量级多模态模型，支持文本和图像输入，生成文本输出，适合资源有限环境部署。

图像生成文本

Gemma 3 4b It Qat Autoawq

Gemma 3是谷歌推出的轻量级开源多模态模型，基于Gemini技术构建，支持文本和图像输入，生成文本输出。

图像生成文本

Openclip ViT H 14 FARE2

基于Transformers库的稳健图像编码器模型，专注于图像特征提取任务

大型语言模型

Mixtex Finetune

MixTex base_ZhEn 是一个支持中文和英语的图像转文本模型，基于MIT许可证发布。

图像生成文本支持多种语言

Gemma 3 Glitter 4B

基于Gemma 3 4B模型，采用与Glitter 12b相同的数据混合方案优化的模型

大型语言模型

Smoldocling 256M Preview Mlx Fp16

该模型是从 ds4sd/SmolDocling-256M-preview 转换为 MLX 格式的视觉语言模型，支持图像文本到文本任务。

图像生成文本

Transformers 英语

Gemma 3 27b Pt Bnb 4bit

Gemma 3是谷歌推出的轻量级开放模型系列，基于与Gemini模型相同的研究和技术构建，支持多模态输入和文本输出。

图像生成文本

Transformers 英语

Gemma 3 12b Pt Bnb 4bit

Gemma 3是谷歌推出的轻量级开放模型系列，基于与Gemini相同技术构建，支持多模态输入和文本生成。

图像生成文本

Transformers 英语

Gemma 3 1b Pt Unsloth Bnb 4bit

Gemma 3是谷歌推出的轻量级开放模型系列，支持多模态输入（文本和图像），拥有128K大上下文窗口，适用于问答、摘要等多种任务。

图像生成文本

Transformers 英语

Gemma 3 27b It GGUF

Gemma-3-27b-it是Google发布的27B参数规模的量化版本大语言模型，专注于图像文本转换任务。

大型语言模型

Gemma 3 27b It GGUF

Gemma-3-27b-it-GGUF 是基于 Google 的 Gemma-3-27b-it 模型经过量化处理的版本，适用于图像文本到文本的任务。

文本生成图像

Bytedance Research.ui TARS 7B DPO GGUF

UI-TARS-7B-DPO 的量化版本，致力于让知识为大众所共享。

图像生成文本

Kaleidoscope Large V1

基于sberbank-ai/ruBert-large微调的文档问答专用模型，支持俄语和英语的文档问答任务。

Transformers 支持多种语言

Kaleidoscope Large V1

基于sberbank-ai/ruBert-large微调的文档问答模型，擅长从文档中提取答案，支持俄语和英语。

Transformers 支持多种语言

Kaleidoscope Small V1

基于sberbank-ai/ruBert-base微调的文档问答模型，擅长从文档上下文中提取答案，支持俄语和英语。

Transformers 支持多种语言

Ola-7B是由腾讯、清华大学和南洋理工大学联合开发的多模态语言模型，基于Qwen2.5架构，支持处理图像、视频、音频和文本输入，并输出文本。

多模态融合支持多种语言

Ola-7B是由腾讯、清华大学和南洋理工大学联合开发的多模态大语言模型，基于Qwen2.5架构，支持处理文本、图像、视频和音频输入，并生成文本输出。

多模态融合

Safetensors 支持多种语言

该模型能够将PDF文档转换为Markdown格式，保持原始文档排版结构，准确识别数学公式和表格。

图像生成文本

Transformers 支持多种语言

Florence 2 FT DocVQA

基于Florence-2-base微调的文档视觉问答模型，专门用于处理文档图像中的问答任务。

图像生成文本

Transformers 英语

Longvu Llama3 2 1B

LongVU 是一种面向长视频语言理解的时空自适应压缩技术，旨在高效处理长视频内容，提升语言理解能力。

视频生成文本

Oryx-1.5-7B是基于Qwen2.5语言模型开发的7B参数模型，支持32K tokens上下文窗口，专注于高效处理任意空间尺寸和时长的视觉输入。

文本生成视频

Safetensors 支持多种语言

Longvu Llama3 2 3B

LongVU是一种面向长视频语言理解的时空自适应压缩技术，旨在高效处理长视频内容。

视频生成文本

H2ovl Mississippi 800m

H2O.ai推出的8亿参数视觉语言模型，专注于OCR和文档理解，性能优异

图像生成文本

Transformers 英语

Florence 2 DocVQA

基于微软Florence-2模型使用Docmatix数据集（5%数据量）微调1天的版本，适用于图像文本理解任务

文本生成图像

Pixtral 12b Nf4

基于Mistral社区Pixtral-12B的4位量化版本，专注于图像文本到文本任务，支持中文描述生成

图像生成文本

Florence 2 Large Florence 2 Large Nsfw Pretrain Gt

该模型是一个基于transformers库的模型，具体功能和用途需要进一步信息确认。

大型语言模型

Ucmt Sam On Depth

基于PyTorch实现的掩码生成模型，通过PytorchModelHubMixin集成推送至Hub

TF ID Large No Caption

TF-ID是一系列目标检测模型，专门用于提取学术论文中的表格和图片及其标题文本。

图像生成文本

Ecot Openvla 7b Oxe

适用于机器人控制任务的预训练Transformer模型，支持运动规划、物体抓取等基础功能

大型语言模型

Florence 2 DocVQA

这是微软Florence-2模型使用Docmatix数据集（5%数据量）以1e-6学习率微调1天后的版本

文本生成图像

Donut 是一个基于 Transformer 的图像转文本模型，能够从图像中提取和生成文本内容。

图像生成文本

Kosmos 2 PokemonCards Trl Merged

这是一个基于微软Kosmos-2模型微调的多模态模型，专门用于识别宝可梦卡牌中的宝可梦名称。

图像生成文本

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase