DocumentCogito开源多模态模型 - 优化视觉语言任务，免费部署加速指令响应！

首页

Documentcogito

由 Daemontatox 开发

基于unsloth/Llama-3.2-11B-Vision-Instruct进行精调的多模态模型，针对视觉-语言任务优化并增强指令跟随能力，通过Unsloth框架实现2倍训练加速

文本生成图像

Transformers

英语开源协议:Apache-2.0 #多模态指令跟随 #视觉文本生成 #高效训练加速

下载量 73

发布时间 : 1/16/2025

模型简介

本模型结合Unsloth框架与Hugging Face的TRL库，在保持高性能的同时实现高效训练，适用于视觉文本生成、多模态指令跟随等任务

模型特点

高效训练

采用Unsloth框架实现2倍训练速度提升

多模态能力

强化视觉与语言交互处理能力

指令优化

专门优化指令理解与执行能力

模型能力

视觉文本生成

多模态推理

指令跟随

图像描述生成

使用案例

视觉内容分析

图像描述生成

根据输入图像生成详细文字描述

在开放大模型排行榜中指令跟随准确率达50.64%

教育辅助

多模态学习

结合视觉与文本信息进行教学辅助

🚀 unsloth/Llama-3.2-11B-Vision-Instruct（微调版）

本模型基于unsloth/Llama-3.2-11B-Vision-Instruct进行微调，针对视觉语言任务进行了优化，具备更强的指令遵循能力。借助Unsloth框架与Hugging Face的TRL库，微调速度提升了2倍，在保证高效训练的同时维持了高性能。

🚀 快速开始

推理示例（Hugging Face Transformers）

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Daemontatox/finetuned-llama-3.2-vision-instruct")
model = AutoModelForCausalLM.from_pretrained("Daemontatox/finetuned-llama-3.2-vision-instruct")

input_text = "Describe the image showing a sunset over mountains."
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=100)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

开放大语言模型排行榜评估结果详细结果可查看此处！总结结果可查看此处！

指标	数值 (%)
平均值	24.21
IFEval（零样本）	50.64
BBH（3样本）	29.79
MATH Lvl 5（4样本）	16.24
GPQA（零样本）	8.84
MuSR（零样本）	8.60
MMLU - PRO（5样本）	31.14

✨ 主要特性

训练速度提升2倍：利用Unsloth框架加速微调过程。
多模态能力：增强了处理视觉 - 语言交互的能力。
指令优化：针对指令的理解和执行进行了优化。

📦 安装指南

文档未提及安装步骤，故跳过该章节。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Daemontatox/finetuned-llama-3.2-vision-instruct")
model = AutoModelForCausalLM.from_pretrained("Daemontatox/finetuned-llama-3.2-vision-instruct")

input_text = "Describe the image showing a sunset over mountains."
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=100)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

高级用法

文档未提及高级用法代码示例，故跳过该部分。

📚 详细文档

模型概述

该模型基于unsloth/Llama-3.2-11B-Vision-Instruct基础模型进行微调，针对视觉语言任务进行了优化，具备更强的指令遵循能力。借助Unsloth框架与Hugging Face的TRL库，微调速度提升了2倍，在保证高效训练的同时维持了高性能。

关键信息

属性	详情
开发者	Daemontatox
基础模型	`unsloth/Llama-3.2-11B-Vision-Instruct`
许可证	Apache - 2.0
语言	英语 (`en`)
使用的框架	Hugging Face Transformers、Unsloth和TRL