高精度视觉问答

# 高精度视觉问答

Gemma 3 12b It Qat 8bit

基于Google Gemma 3 12B模型转换的8位量化版本，适用于图像文本到文本任务。

图像生成文本

Transformers 其他

Videorefer 7B Stage2.5

VideoRefer-7B是一个基于视频大语言模型的多模态模型，专注于时空物体理解任务。

文本生成视频

Transformers 英语

Qwen2 VL 72B Instruct GGUF

Qwen2-VL-72B-Instruct的GGUF量化版本，支持多模态图像文本到文本转换，可通过LlamaEdge运行。

图像生成文本

Transformers 英语

Llama 3.2V 11B Cot

Llama-3.2V-11B-cot 是一个能够进行自发、系统性推理的视觉语言模型，基于 LLaVA-CoT 框架开发。

图像生成文本

Transformers 英语

Xgen Mm Phi3 Mini Base R V1.5

xGen-MM是由Salesforce AI Research开发的一系列最新基础大语言模型(LMMs)，在BLIP系列基础上改进，融入增强功能，具有更强大的基础能力。

文本生成图像

Safetensors 英语

Xgen Mm Phi3 Mini Instruct Dpo R V1.5

xGen-MM是Salesforce AI Research开发的多模态基础模型系列，基于BLIP系列改进，在高质量图像字幕和交错图文数据上训练。

图像生成文本英语

Xgen Mm Phi3 Mini Instruct Singleimg R V1.5

xGen-MM是Salesforce AI Research开发的一系列最新基础大型多模态模型，基于BLIP系列的成功设计进行了改进，提供更强大的多模态处理能力。

图像生成文本

Safetensors 英语

Internlm Xcomposer2 Vl 1 8b

基于InternLM2的视觉-语言大模型，具备卓越的图文理解与创作能力

文本生成图像

Internlm Xcomposer2 Vl 7b

InternLM-XComposer2是基于InternLM2研发的视觉-语言大模型，具备卓越的图文理解与创作能力。

文本生成图像

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase