SmolVLM2-2.2B-Instruct-4bit開源視覺語言模型 - 高效處理視頻文本到文本任務

Smolvlm2 2.2B Instruct 4bit

Developed by smdesai

SmolVLM2-2.2B-Instruct-4bit 是一個基於 MLX 格式轉換的視覺語言模型，專注於視頻文本到文本的任務。

Downloads 24

Release Time : 2/20/2025

Model Overview

該模型是從 HuggingFaceTB/SmolVLM2-2.2B-Instruct 轉換而來，支持視頻和文本的多模態交互，適用於生成視頻描述等任務。

多模態支持

支持視頻和文本的交互，能夠處理視頻內容並生成相關文本描述。

高效推理

使用 4bit 量化技術，降低模型資源需求，提升推理效率。

廣泛的數據集訓練

基於多個高質量數據集訓練，包括 Docmatix、LLaVA-OneVision-Data 等。

視頻內容理解

文本生成

多模態交互

視頻內容分析

視頻描述生成

根據視頻內容生成詳細的文本描述。

生成準確且連貫的視頻描述文本。

教育

視頻輔助學習

為教育視頻生成輔助文本，幫助學習者更好地理解內容。

提升學習體驗和理解效果。

屬性	詳情
庫名稱	transformers
模型類型	video - text - to - text
基礎模型	HuggingFaceTB/SmolVLM - Instruct
訓練數據	HuggingFaceM4/the_cauldron、HuggingFaceM4/Docmatix、lmms - lab/LLaVA - OneVision - Data、lmms - lab/M4 - Instruct - Data、HuggingFaceFV/finevideo、MAmmoTH - VL/MAmmoTH - VL - Instruct - 12M、lmms - lab/LLaVA - Video - 178K、orrzohar/Video - STaR、Mutonix/Vript、TIGER - Lab/VISTA - 400K、Enxin/MovieChat - 1K_train、ShareGPT4Video/ShareGPT4Video
標籤	mlx