SmolVLM2-2.2B-Instruct開源視覺語言模型 - 免費部署助力英語視頻文本轉文本

Smolvlm2 2.2B Instruct GGUF

Developed by mradermacher

SmolVLM2-2.2B-Instruct 是一個2.2B參數量的視覺語言模型，專注於視頻文本轉文本任務，支持英語。

Downloads 235

Release Time : 4/25/2025

Model Overview

該模型是一個量化版本的視覺語言模型，基於HuggingFaceTB/SmolVLM2-2.2B-Instruct，專注於處理視頻相關的文本生成任務。

多數據集訓練

模型在多個高質量數據集上進行訓練，包括Docmatix、LLaVA-OneVision-Data等，增強了其泛化能力。

量化版本多樣

提供了多種量化版本（如Q2_K、Q3_K_S等），用戶可以根據需求選擇適合的版本，平衡速度和質量。

高效推理

量化版本顯著減小了模型大小，提高了推理速度，適合資源有限的環境。

視頻文本生成

多模態理解

指令跟隨

視頻內容分析

視頻字幕生成

根據視頻內容生成描述性字幕。

視頻問答

回答關於視頻內容的特定問題。

教育

教育視頻摘要

生成教育視頻的簡潔摘要，幫助學生快速理解內容。

屬性	詳情
基礎模型	HuggingFaceTB/SmolVLM2-2.2B-Instruct
訓練數據集	HuggingFaceM4/the_cauldron、HuggingFaceM4/Docmatix、lmms-lab/LLaVA-OneVision-Data等
語言	英語
庫名稱	transformers
許可證	apache-2.0
量化者	mradermacher
標籤	video-text-to-text

鏈接	類型	大小/GB	備註
GGUF	Q2_K	0.8
GGUF	Q3_K_S	0.9
GGUF	Q3_K_M	1.0	質量較低
GGUF	Q3_K_L	1.1
GGUF	IQ4_XS	1.1
GGUF	Q4_K_S	1.2	快速，推薦
GGUF	Q4_K_M	1.2	快速，推薦
GGUF	Q5_K_S	1.4
GGUF	Q5_K_M	1.4
GGUF	Q6_K	1.6	質量非常好
GGUF	Q8_0	2.0	快速，質量最佳
GGUF	f16	3.7	16 bpw，過度配置