图像文本理解

# 图像文本理解

Gemma 27B Chatml

Gemma 3是Google推出的轻量级、最先进的开源多模态模型家族，基于创建Gemini模型的相同研究和技术构建，支持文本和图像输入并生成文本输出。

图像生成文本

Gemma 3 4b It Qat Autoawq

Gemma 3是谷歌推出的轻量级开源多模态模型，基于Gemini技术构建，支持文本和图像输入，生成文本输出。

图像生成文本

Llama 4 Maverick 17B 128E

Llama 4 Maverick是Meta开发的多模态AI模型，采用混合专家架构，支持文本和图像理解，具有170亿激活参数和4000亿总参数。

文本生成图像

Transformers 支持多种语言

Gemma 3 1b Pt Unsloth Bnb 4bit

Gemma 3是谷歌推出的轻量级开放模型系列，支持多模态输入（文本和图像），拥有128K大上下文窗口，适用于问答、摘要等多种任务。

图像生成文本

Transformers 英语

Gemma 3 12b It GGUF

Gemma-3-12b-it-GGUF 是基于 Google 原始模型 google/gemma-3-12b-it 构建的量化模型，适用于图像文本到文本的任务。

大型语言模型

Qwen2 VL 7B Instruct GGUF

基于Qwen2-VL-7B-Instruct的多模态模型量化版本，支持图像文本到文本任务，适用于多种量化级别。

图像生成文本英语

Razorback 12B V0.2

Razorback 12B v0.2 是一个结合了Pixtral 12B和UnslopNemo v3优势的多模态模型，具备视觉理解和语言处理能力。

图像生成文本

Transformers 支持多种语言

GLM-Edge-V-2B是一个基于Pytorch框架的图像文本到文本模型，支持中文处理。

图像生成文本

Llava 1.6 Mistral 7b Gguf

LLaVA是一个开源的多模态聊天机器人，通过在多模态指令跟随数据上微调LLM训练而成。本版本为GGUF量化版本，提供多种量化选项。

文本生成图像

Llava-Phi2是基于Phi2的多模态实现，结合了视觉和语言处理能力，适用于图像文本到文本的任务。

图像生成文本

Transformers 英语

MMAlaya是基于大语言模型Alaya开发的多模态系统，包含大语言模型、图像文本特征编码器和特征转换模块三大核心组件。

图像生成文本

Llava V1.5 13B AWQ

LLaVA是一个开源的多模态聊天机器人，通过微调LLaMA/Vicuna在GPT生成的多模态指令跟随数据上进行训练。

文本生成图像

Llava Pretrain Vicuna 7b V1.3

LLaVA 是一个开源多模态聊天机器人，基于 LLaMA/Vicuna 在 GPT 生成的多模态指令跟随数据上进行微调训练而成。

文本生成图像

Git Base Textvqa

基于microsoft/git-base-textvqa在textvqa数据集上微调的视觉问答模型，擅长处理包含文本的图像问答任务

大型语言模型

Transformers 其他

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase