SmolVLM2-2.2B-Instruct開源視覺語言模型 - 支持英語視頻文本轉文本任務

Smolvlm2 2.2B Instruct I1 GGUF

由mradermacher開發

SmolVLM2-2.2B-Instruct 是一個2.2B參數規模的視覺語言模型，專注於視頻文本到文本任務，支持英語。

下載量 285

發布時間 : 4/25/2025

模型概述

該模型是一個量化版本的視覺語言模型，基於多個視頻和文本數據集訓練，適用於視頻內容理解和生成任務。

多數據集訓練

模型基於多個高質量視頻和文本數據集訓練，包括the_cauldron、Docmatix、LLaVA-OneVision-Data等。

量化版本多樣

提供多種量化版本，從極低質量的IQ1_S到高質量的Q6_K，滿足不同硬件和性能需求。

視頻理解能力

專注於視頻內容的理解和文本生成，適用於視頻字幕生成、視頻內容分析等任務。

視頻內容理解

文本生成

視頻字幕生成

多模態推理

視頻內容分析

視頻字幕生成

為視頻內容生成描述性字幕

視頻內容摘要

從視頻中提取關鍵信息並生成摘要

教育

教育視頻講解

為教育視頻生成講解文本

本項目提供了SmolVLM2-2.2B-Instruct模型的量化版本，可幫助用戶在不同場景下更高效地使用該模型。通過提供多種量化類型和大小的選擇，滿足不同用戶的需求。

屬性	詳情
基礎模型	HuggingFaceTB/SmolVLM2-2.2B-Instruct
訓練數據集	HuggingFaceM4/the_cauldron、HuggingFaceM4/Docmatix、lmms-lab/LLaVA-OneVision-Data等
語言	英語
庫名稱	transformers
許可證	apache-2.0
量化者	mradermacher
標籤	video-text-to-text

如果您不確定如何使用GGUF文件，請參考 TheBloke的README 以獲取更多詳細信息，包括如何拼接多部分文件。

（按大小排序，不一定代表質量。IQ量化通常優於類似大小的非IQ量化）

鏈接	類型	大小/GB	備註
GGUF	i1-IQ1_S	0.5	適用於資源極度受限的情況
GGUF	i1-IQ1_M	0.6	多數情況下資源受限
GGUF	i1-IQ2_XXS	0.6
GGUF	i1-IQ2_XS	0.7
GGUF	i1-IQ2_S	0.7
GGUF	i1-IQ2_M	0.8
GGUF	i1-Q2_K_S	0.8	質量非常低
GGUF	i1-Q2_K	0.8	IQ3_XXS可能更好
GGUF	i1-IQ3_XXS	0.8	質量較低
GGUF	i1-IQ3_XS	0.9
GGUF	i1-IQ3_S	0.9	優於Q3_K*
GGUF	i1-Q3_K_S	0.9	IQ3_XS可能更好
GGUF	i1-IQ3_M	1.0
GGUF	i1-Q3_K_M	1.0	IQ3_S可能更好
GGUF	i1-Q3_K_L	1.1	IQ3_M可能更好
GGUF	i1-IQ4_XS	1.1
GGUF	i1-IQ4_NL	1.1	優先選擇IQ4_XS
GGUF	i1-Q4_0	1.2	速度快，質量低
GGUF	i1-Q4_K_S	1.2	大小/速度/質量最優
GGUF	i1-Q4_K_M	1.2	速度快，推薦
GGUF	i1-Q4_1	1.3
GGUF	i1-Q5_K_S	1.4
GGUF	i1-Q5_K_M	1.4
GGUF	i1-Q6_K	1.6	實際上類似於靜態Q6_K