SmolVLM2-500M-Video-Instruct-mlx開源視頻文本轉文本模型

Smolvlm2 500M Video Instruct Mlx

由mlx-community開發

這是一個基於MLX格式的視頻文本轉文本模型，由HuggingFaceTB開發，支持英文語言處理。

下載量 2,491

發布時間 : 2/12/2025

模型概述

該模型是從HuggingFaceTB/SmolVLM2-500M-Video-Instruct轉換而來的MLX格式模型，主要用於視頻內容理解和文本生成任務。

視頻內容理解

能夠理解視頻內容並生成相關文本描述

MLX格式優化

專為MLX框架優化的模型版本，提高運行效率

多模態處理

支持視頻和文本的多模態輸入處理

視頻內容描述

視頻問答

多模態理解

文本生成

視頻內容分析

視頻內容描述

為視頻內容生成文字描述

可生成準確描述視頻內容的文本

視頻問答

回答關於視頻內容的問題

能基於視頻內容提供準確的回答

教育

教育視頻分析

分析教育視頻內容並生成摘要

幫助學生快速理解視頻要點

屬性	詳情
庫名稱	transformers
數據集	HuggingFaceM4/the_cauldron、HuggingFaceM4/Docmatix
任務類型	視頻文本到文本
語言	英語
基礎模型	HuggingFaceTB/SmolLM2 - 360M - Instruct、google/siglip - base - patch16 - 512、HuggingFaceTB/SmolVLM2 - 500M - Video - Instruct
標籤	mlx