🚀 unsloth/Llama-3.2-11B-Vision-Instruct(微調版)
本模型基於unsloth/Llama-3.2-11B-Vision-Instruct
進行微調,針對視覺語言任務進行了優化,具備更強的指令遵循能力。藉助Unsloth框架與Hugging Face的TRL庫,微調速度提升了2倍,在保證高效訓練的同時維持了高性能。
🚀 快速開始
推理示例(Hugging Face Transformers)
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Daemontatox/finetuned-llama-3.2-vision-instruct")
model = AutoModelForCausalLM.from_pretrained("Daemontatox/finetuned-llama-3.2-vision-instruct")
input_text = "Describe the image showing a sunset over mountains."
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
開放大語言模型排行榜評估結果
詳細結果可查看此處!
總結結果可查看此處!
指標 |
數值 (%) |
平均值 |
24.21 |
IFEval(零樣本) |
50.64 |
BBH(3樣本) |
29.79 |
MATH Lvl 5(4樣本) |
16.24 |
GPQA(零樣本) |
8.84 |
MuSR(零樣本) |
8.60 |
MMLU - PRO(5樣本) |
31.14 |
✨ 主要特性
- 訓練速度提升2倍:利用Unsloth框架加速微調過程。
- 多模態能力:增強了處理視覺 - 語言交互的能力。
- 指令優化:針對指令的理解和執行進行了優化。
📦 安裝指南
文檔未提及安裝步驟,故跳過該章節。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Daemontatox/finetuned-llama-3.2-vision-instruct")
model = AutoModelForCausalLM.from_pretrained("Daemontatox/finetuned-llama-3.2-vision-instruct")
input_text = "Describe the image showing a sunset over mountains."
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
高級用法
文檔未提及高級用法代碼示例,故跳過該部分。
📚 詳細文檔
模型概述
該模型基於unsloth/Llama-3.2-11B-Vision-Instruct
基礎模型進行微調,針對視覺語言任務進行了優化,具備更強的指令遵循能力。藉助Unsloth框架與Hugging Face的TRL庫,微調速度提升了2倍,在保證高效訓練的同時維持了高性能。
關鍵信息
屬性 |
詳情 |
開發者 |
Daemontatox |
基礎模型 |
unsloth/Llama-3.2-11B-Vision-Instruct |
許可證 |
Apache - 2.0 |
語言 |
英語 (en ) |
使用的框架 |
Hugging Face Transformers、Unsloth和TRL |
性能和用例
該模型適用於以下應用場景:
- 基於視覺的文本生成和描述任務
- 多模態上下文中的指令遵循
- 具備增強推理能力的通用文本生成
🔧 技術細節
文檔未提供具體技術細節(說明文字少於50字),故跳過該章節。
📄 許可證
本模型使用的許可證為Apache - 2.0。