S

Space Voice Label Detect Beta

由 devJy 开发
基于Qwen2.5-VL-3B模型的微调版本,使用Unsloth和Huggingface TRL库进行训练,推理速度提升2倍
下载量 38
发布时间 : 4/5/2025

模型简介

这是一个经过优化的视觉语言模型,支持文本生成和视觉理解任务,特别针对指令跟随场景进行了微调

模型特点

高效训练
使用Unsloth框架训练,速度提升2倍
4-bit量化
采用4-bit量化技术,减少内存占用
多模态能力
同时支持文本和视觉输入的理解与生成
指令优化
针对指令跟随场景特别优化

模型能力

文本生成
视觉问答
多模态理解
指令跟随

使用案例

智能助手
多模态对话
基于文本和图像的交互式对话
能够理解并回答关于图像内容的复杂问题
内容生成
图像描述生成
根据输入图像生成详细描述
生成准确且富有表现力的图像描述
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase