Llama-3.2-11B-Vision-Instruct開源多模態模型 - 支持圖文輸入智能生成文本

Llama 3.2 11B Vision Instruct Abliterated 8 Bit

由mlx-community開發

這是一個基於Llama-3.2-11B-Vision-Instruct的多模態模型，支持圖像和文本輸入，並生成文本輸出。

下載量 128

發布時間 : 12/16/2024

模型概述

該模型是一個視覺語言模型，能夠處理圖像和文本輸入，生成相應的文本輸出。適用於多模態任務，如視覺問答、圖像描述生成等。

多模態支持

能夠同時處理圖像和文本輸入，生成文本輸出。

多語言支持

支持多種語言，包括英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語。

8-bit量化

模型經過8-bit量化處理，減少了內存佔用和計算資源需求。

圖像理解

文本生成

多模態推理

視覺問答

視覺問答

圖像內容問答

根據輸入的圖像和問題，生成相應的答案。

圖像描述生成

自動圖像描述

根據輸入的圖像，生成描述性文本。

屬性	詳情
支持語言	en、de、fr、it、pt、hi、es、th
庫名稱	transformers
許可證	llama3.2
任務類型	image-text-to-text
基礎模型	meta-llama/Llama-3.2-11B-Vision-Instruct
標籤	facebook、meta、pytorch、llama、llama-3、abliterated、uncensored、mlx