S

Smolvlm Instruct GGUF

由 Mungert 开发
SmolVLM是一个紧凑的开源多模态模型,能够接受图像和文本输入并生成文本输出,专为高效设计,适用于设备端应用。
下载量 1,023
发布时间 : 6/9/2025

模型简介

SmolVLM是一个轻量级多模态模型,能够处理图像和文本输入,生成文本输出。它可以回答关于图像的问题、描述视觉内容、基于多张图像创作故事,甚至在没有视觉输入的情况下作为纯语言模型使用。

模型特点

多模态处理
能够接受图像和文本的任意序列输入,并生成文本输出。
高效轻量
适合设备端应用,在多模态任务上仍保持强大性能。
功能多样
可回答图像相关问题、描述视觉内容、创作故事等。
量化支持
支持多种量化方法,包括4/8位量化,适用于不同硬件环境。

模型能力

图像描述
视觉问答
基于图像的故事创作
纯文本语言模型
多模态推理

使用案例

视觉内容理解
图像描述
对输入的图像进行详细描述
生成准确的图像内容描述
视觉问答
回答关于图像内容的问题
提供与图像相关的准确答案
创意内容生成
故事创作
基于多张图像创作连贯的故事
生成与图像内容相关的创意故事
文档理解
文档分析
理解并分析文档中的内容和结构
提取文档关键信息
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase