DocumentCogito開源多模態模型 - 優化視覺語言任務，免費部署加速指令響應！

首頁

Documentcogito

由Daemontatox開發

基於unsloth/Llama-3.2-11B-Vision-Instruct進行精調的多模態模型，針對視覺-語言任務優化並增強指令跟隨能力，通過Unsloth框架實現2倍訓練加速

文本生成圖像

Transformers

英語開源協議:Apache-2.0 #多模態指令跟隨 #視覺文本生成 #高效訓練加速

下載量 73

發布時間 : 1/16/2025

模型概述

本模型結合Unsloth框架與Hugging Face的TRL庫，在保持高性能的同時實現高效訓練，適用於視覺文本生成、多模態指令跟隨等任務

模型特點

高效訓練

採用Unsloth框架實現2倍訓練速度提升

多模態能力

強化視覺與語言交互處理能力

指令優化

專門優化指令理解與執行能力

模型能力

視覺文本生成

多模態推理

指令跟隨

圖像描述生成

使用案例

視覺內容分析

圖像描述生成

根據輸入圖像生成詳細文字描述

在開放大模型排行榜中指令跟隨準確率達50.64%

教育輔助

多模態學習

結合視覺與文本信息進行教學輔助

🚀 unsloth/Llama-3.2-11B-Vision-Instruct（微調版）

本模型基於unsloth/Llama-3.2-11B-Vision-Instruct進行微調，針對視覺語言任務進行了優化，具備更強的指令遵循能力。藉助Unsloth框架與Hugging Face的TRL庫，微調速度提升了2倍，在保證高效訓練的同時維持了高性能。

🚀 快速開始

推理示例（Hugging Face Transformers）

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Daemontatox/finetuned-llama-3.2-vision-instruct")
model = AutoModelForCausalLM.from_pretrained("Daemontatox/finetuned-llama-3.2-vision-instruct")

input_text = "Describe the image showing a sunset over mountains."
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=100)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

開放大語言模型排行榜評估結果詳細結果可查看此處！總結結果可查看此處！

指標	數值 (%)
平均值	24.21
IFEval（零樣本）	50.64
BBH（3樣本）	29.79
MATH Lvl 5（4樣本）	16.24
GPQA（零樣本）	8.84
MuSR（零樣本）	8.60
MMLU - PRO（5樣本）	31.14

✨ 主要特性

訓練速度提升2倍：利用Unsloth框架加速微調過程。
多模態能力：增強了處理視覺 - 語言交互的能力。
指令優化：針對指令的理解和執行進行了優化。

📦 安裝指南

文檔未提及安裝步驟，故跳過該章節。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Daemontatox/finetuned-llama-3.2-vision-instruct")
model = AutoModelForCausalLM.from_pretrained("Daemontatox/finetuned-llama-3.2-vision-instruct")

input_text = "Describe the image showing a sunset over mountains."
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=100)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

高級用法

文檔未提及高級用法代碼示例，故跳過該部分。

📚 詳細文檔

模型概述

該模型基於unsloth/Llama-3.2-11B-Vision-Instruct基礎模型進行微調，針對視覺語言任務進行了優化，具備更強的指令遵循能力。藉助Unsloth框架與Hugging Face的TRL庫，微調速度提升了2倍，在保證高效訓練的同時維持了高性能。

關鍵信息

屬性	詳情
開發者	Daemontatox
基礎模型	`unsloth/Llama-3.2-11B-Vision-Instruct`
許可證	Apache - 2.0
語言	英語 (`en`)
使用的框架	Hugging Face Transformers、Unsloth和TRL