Llama-3.2-11B-Vision-Instruct开源多模态模型 - 支持图文输入智能生成文本

Llama 3.2 11B Vision Instruct Abliterated 8 Bit

由 mlx-community 开发

这是一个基于Llama-3.2-11B-Vision-Instruct的多模态模型，支持图像和文本输入，并生成文本输出。

下载量 128

发布时间 : 12/16/2024

模型简介

该模型是一个视觉语言模型，能够处理图像和文本输入，生成相应的文本输出。适用于多模态任务，如视觉问答、图像描述生成等。

多模态支持

能够同时处理图像和文本输入，生成文本输出。

多语言支持

支持多种语言，包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。

8-bit量化

模型经过8-bit量化处理，减少了内存占用和计算资源需求。

图像理解

文本生成

多模态推理

视觉问答

视觉问答

图像内容问答

根据输入的图像和问题，生成相应的答案。

图像描述生成

自动图像描述

根据输入的图像，生成描述性文本。

属性	详情
支持语言	en、de、fr、it、pt、hi、es、th
库名称	transformers
许可证	llama3.2
任务类型	image-text-to-text
基础模型	meta-llama/Llama-3.2-11B-Vision-Instruct
标签	facebook、meta、pytorch、llama、llama-3、abliterated、uncensored、mlx