Mixtral_AI_Vision_128k_7b开源多模态模型 - 实现图像与文本自由交互

Mixtral AI Vision 128k 7b

由 LeroyDyer 开发

一个结合视觉与语言能力的多模态模型，通过合并方法实现图像与文本交互功能

下载量 384

发布时间 : 3/22/2024

模型简介

该模型通过线性合并方法融合了多个基础模型，具备视觉与语言交互能力，支持图像理解和文本生成

多模态能力

支持图像与文本的交互，实现视觉功能

模型合并技术

使用线性合并方法将多个基础模型融合

视觉兼容性

通过mmproj文件支持多种兼容模型的视觉能力

图像理解

文本生成

多模态交互

多模态交互

图像描述生成

根据输入图像生成相关文本描述

视觉问答

基于图像内容回答相关问题

属性	详情
基础模型	LeroyDyer/Mixtral_Chat_X_128k、ChaoticNeutrals/Eris_PrimeV3-Vision-7B
库名称	transformers
标签	mergekit、merge
许可证	mit
语言	en
评估指标	accuracy、bertscore、bleurt、brier_score、cer、code_eval
任务类型	image-text-to-text