🚀 unsloth/Llama-3.2-11B-Vision-Instruct(微调版)
本模型基于unsloth/Llama-3.2-11B-Vision-Instruct
进行微调,针对视觉语言任务进行了优化,具备更强的指令遵循能力。借助Unsloth框架与Hugging Face的TRL库,微调速度提升了2倍,在保证高效训练的同时维持了高性能。
🚀 快速开始
推理示例(Hugging Face Transformers)
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Daemontatox/finetuned-llama-3.2-vision-instruct")
model = AutoModelForCausalLM.from_pretrained("Daemontatox/finetuned-llama-3.2-vision-instruct")
input_text = "Describe the image showing a sunset over mountains."
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
开放大语言模型排行榜评估结果
详细结果可查看此处!
总结结果可查看此处!
指标 |
数值 (%) |
平均值 |
24.21 |
IFEval(零样本) |
50.64 |
BBH(3样本) |
29.79 |
MATH Lvl 5(4样本) |
16.24 |
GPQA(零样本) |
8.84 |
MuSR(零样本) |
8.60 |
MMLU - PRO(5样本) |
31.14 |
✨ 主要特性
- 训练速度提升2倍:利用Unsloth框架加速微调过程。
- 多模态能力:增强了处理视觉 - 语言交互的能力。
- 指令优化:针对指令的理解和执行进行了优化。
📦 安装指南
文档未提及安装步骤,故跳过该章节。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Daemontatox/finetuned-llama-3.2-vision-instruct")
model = AutoModelForCausalLM.from_pretrained("Daemontatox/finetuned-llama-3.2-vision-instruct")
input_text = "Describe the image showing a sunset over mountains."
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
高级用法
文档未提及高级用法代码示例,故跳过该部分。
📚 详细文档
模型概述
该模型基于unsloth/Llama-3.2-11B-Vision-Instruct
基础模型进行微调,针对视觉语言任务进行了优化,具备更强的指令遵循能力。借助Unsloth框架与Hugging Face的TRL库,微调速度提升了2倍,在保证高效训练的同时维持了高性能。
关键信息
属性 |
详情 |
开发者 |
Daemontatox |
基础模型 |
unsloth/Llama-3.2-11B-Vision-Instruct |
许可证 |
Apache - 2.0 |
语言 |
英语 (en ) |
使用的框架 |
Hugging Face Transformers、Unsloth和TRL |
性能和用例
该模型适用于以下应用场景:
- 基于视觉的文本生成和描述任务
- 多模态上下文中的指令遵循
- 具备增强推理能力的通用文本生成
🔧 技术细节
文档未提供具体技术细节(说明文字少于50字),故跳过该章节。
📄 许可证
本模型使用的许可证为Apache - 2.0。