高分辨率图像理解

# 高分辨率图像理解

Eurovlm 9B Preview

EuroVLM-9B-Preview是基于EuroLLM-9B长上下文版本的多模态视觉语言模型，支持多种语言和视觉任务，目前为预览版本。

图像生成文本

Transformers 支持多种语言

Janus-Pro 是一种创新的自回归框架，统一了多模态理解与生成功能。通过解耦视觉编码路径，采用单一Transformer架构处理，解决了视觉编码器在理解与生成角色间的冲突。

文本生成图像

Paligemma2 28b Pt 896

PaliGemma 2是Google推出的视觉语言模型(VLM)，融合Gemma 2语言模型和SigLIP视觉模型能力，支持图像和文本输入生成文本输出。

图像生成文本

Paligemma2 28b Mix 448

PaliGemma 2是基于Gemma 2的视觉语言模型，支持图像+文本输入，输出文本响应，适用于多种视觉语言任务。

图像生成文本

Paligemma2 10b Pt 896

PaliGemma 2是Google推出的视觉语言模型(VLM)，融合Gemma 2能力，支持图像和文本输入生成文本输出

图像生成文本

Paligemma2 10b Pt 448

PaliGemma 2是Google推出的升级版视觉语言模型(VLM)，融合Gemma 2能力，支持图像和文本输入生成文本输出。

图像生成文本

Paligemma2 3b Pt 448

PaliGemma 2是基于Gemma 2的视觉语言模型，支持图像和文本输入，生成文本输出，适用于多种视觉语言任务。

图像生成文本

Paligemma2 3b Ft Docci 448

PaliGemma 2是Google推出的升级版视觉语言模型，结合Gemma 2和SigLIP视觉模型的能力，支持多语言视觉语言任务。

图像生成文本

Llama 3.1 8B Dragonfly V2

蜻蜓是基于Llama 3.1通过指令微调训练的多模态视觉语言模型，支持图像与文本的联合理解与生成

图像生成文本英语

togethercomputer

Convllava JP 1.3b 1280

ConvLLaVA-JP是一款支持高分辨率输入的日语视觉语言模型，能够就输入图像进行对话。

图像生成文本

Transformers 日语

Cogvlm2 Llama3 Chat 19B Int4

CogVLM2是基于Meta-Llama-3-8B-Instruct构建的多模态对话模型，支持中英文，具备8K上下文长度和1344*1344分辨率图像处理能力。

文本生成图像

Transformers 英语

360VL是基于LLama3语言模型开发的开源大型多模态模型，具备强大的图像理解和双语文本支持能力。

文本生成图像

Transformers 支持多种语言

Cogvlm2 Llama3 Chinese Chat 19B

CogVLM2是基于Meta-Llama-3-8B-Instruct构建的多模态大模型，支持中英双语，具备强大的图像理解和对话能力。

文本生成图像

Transformers 英语

Cogvlm2 Llama3 Chat 19B

CogVLM2是基于Meta-Llama-3-8B-Instruct构建的多模态大模型，支持图像理解和对话任务，具有8K上下文长度和1344x1344图像分辨率处理能力。

文本生成图像

Transformers 英语

360VL是基于LLama3语言模型开发的多模态模型，具备强大的图像理解和双语对话能力。

文本生成图像

Transformers 支持多种语言

Paligemma 3b Pt 896

PaliGemma是一款多功能轻量级视觉语言模型(VLM)，支持图像和文本输入，生成文本输出，具备多语言能力。

图像生成文本

Paligemma 3b Ft Ocrvqa 448

PaliGemma是Google开发的多功能轻量级视觉语言模型(VLM)，基于SigLIP视觉模型和Gemma语言模型构建，支持图像和文本输入，输出文本结果。

图像生成文本

Xgen Mm Phi3 Mini Base R V1

XGen-MM是Salesforce AI Research开发的最新多模态大模型系列，基于BLIP的成功设计，通过基础性增强实现了更强大、更优越的模型架构。

图像生成文本

Transformers 英语

Xgen Mm Phi3 Mini Instruct R V1

xGen-MM是Salesforce AI Research开发的最新基础大型多模态模型系列，基于BLIP系列改进，具有强大的图像理解和文本生成能力。

图像生成文本

Transformers 英语

Llava Llama 3 8b V1 1 Gguf

基于Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336模型微调的多模态模型，支持图像理解和文本生成

图像生成文本

Llava Llama 3 8b V1 1 Transformers

基于Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336微调的LLaVA模型，支持图像文本到文本任务

图像生成文本

猴子模型是一种高效的大型多模态模型，通过提升图像分辨率和改进文本标签方法，在多个视觉任务中表现优异。

图像生成文本

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase