SmolVLM2-256M-Video-Instruct-mlx開源模型 - 支持視頻理解與指令跟隨任務

Smolvlm2 256M Video Instruct Mlx

由mlx-community開發

這是一個基於MLX框架轉換的視頻文本到文本模型，適用於視頻理解和指令跟隨任務。

下載量 591

發布時間 : 2/17/2025

模型概述

該模型是從HuggingFaceTB/SmolVLM2-256M-Video-Instruct轉換而來，專門用於處理視頻和文本之間的交互任務，能夠理解視頻內容並生成相應的文本描述或回答相關問題。

視頻理解能力

能夠理解視頻內容並生成相應的文本描述

指令跟隨

可以根據用戶提供的指令生成相關的文本響應

輕量級模型

256M參數的規模使其在保持性能的同時具有較高的效率

視頻內容理解

文本生成

指令跟隨

多模態處理

視頻分析

視頻內容描述

根據視頻內容生成詳細的文本描述

準確描述視頻中的場景和動作

視頻問答

回答關於視頻內容的特定問題

提供與視頻內容相關的準確答案

教育

教學視頻輔助

為教學視頻生成字幕或摘要

幫助學生更好地理解視頻內容

屬性	詳情
模型類型	視頻文本到文本轉換模型
訓練數據	HuggingFaceM4/the_cauldron、HuggingFaceM4/Docmatix
基礎模型	HuggingFaceTB/SmolLM2 - 360M - Instruct、google/siglip - base - patch16 - 512、HuggingFaceTB/SmolVLM2 - 256M - Video - Instruct
標籤	mlx