SmolVLM2-2.2B-Instruct开源视觉语言模型 - 支持英语视频文本转文本任务

Smolvlm2 2.2B Instruct I1 GGUF

由 mradermacher 开发

SmolVLM2-2.2B-Instruct 是一个2.2B参数规模的视觉语言模型，专注于视频文本到文本任务，支持英语。

下载量 285

发布时间 : 4/25/2025

模型简介

该模型是一个量化版本的视觉语言模型，基于多个视频和文本数据集训练，适用于视频内容理解和生成任务。

多数据集训练

模型基于多个高质量视频和文本数据集训练，包括the_cauldron、Docmatix、LLaVA-OneVision-Data等。

量化版本多样

提供多种量化版本，从极低质量的IQ1_S到高质量的Q6_K，满足不同硬件和性能需求。

视频理解能力

专注于视频内容的理解和文本生成，适用于视频字幕生成、视频内容分析等任务。

视频内容理解

文本生成

视频字幕生成

多模态推理

视频内容分析

视频字幕生成

为视频内容生成描述性字幕

视频内容摘要

从视频中提取关键信息并生成摘要

教育

教育视频讲解

为教育视频生成讲解文本

本项目提供了SmolVLM2-2.2B-Instruct模型的量化版本，可帮助用户在不同场景下更高效地使用该模型。通过提供多种量化类型和大小的选择，满足不同用户的需求。

属性	详情
基础模型	HuggingFaceTB/SmolVLM2-2.2B-Instruct
训练数据集	HuggingFaceM4/the_cauldron、HuggingFaceM4/Docmatix、lmms-lab/LLaVA-OneVision-Data等
语言	英语
库名称	transformers
许可证	apache-2.0
量化者	mradermacher
标签	video-text-to-text

如果您不确定如何使用GGUF文件，请参考 TheBloke的README 以获取更多详细信息，包括如何拼接多部分文件。

（按大小排序，不一定代表质量。IQ量化通常优于类似大小的非IQ量化）

链接	类型	大小/GB	备注
GGUF	i1-IQ1_S	0.5	适用于资源极度受限的情况
GGUF	i1-IQ1_M	0.6	多数情况下资源受限
GGUF	i1-IQ2_XXS	0.6
GGUF	i1-IQ2_XS	0.7
GGUF	i1-IQ2_S	0.7
GGUF	i1-IQ2_M	0.8
GGUF	i1-Q2_K_S	0.8	质量非常低
GGUF	i1-Q2_K	0.8	IQ3_XXS可能更好
GGUF	i1-IQ3_XXS	0.8	质量较低
GGUF	i1-IQ3_XS	0.9
GGUF	i1-IQ3_S	0.9	优于Q3_K*
GGUF	i1-Q3_K_S	0.9	IQ3_XS可能更好
GGUF	i1-IQ3_M	1.0
GGUF	i1-Q3_K_M	1.0	IQ3_S可能更好
GGUF	i1-Q3_K_L	1.1	IQ3_M可能更好
GGUF	i1-IQ4_XS	1.1
GGUF	i1-IQ4_NL	1.1	优先选择IQ4_XS
GGUF	i1-Q4_0	1.2	速度快，质量低
GGUF	i1-Q4_K_S	1.2	大小/速度/质量最优
GGUF	i1-Q4_K_M	1.2	速度快，推荐
GGUF	i1-Q4_1	1.3
GGUF	i1-Q5_K_S	1.4
GGUF	i1-Q5_K_M	1.4
GGUF	i1-Q6_K	1.6	实际上类似于静态Q6_K