SmolVLM2-500M-Video-Instruct-mlx-8bit-skip-vision開源模型

Smolvlm2 500M Video Instruct Mlx 8bit Skip Vision

由mlx-community開發

基於SmolVLM2-500M-Video-Instruct轉換的MLX格式模型，支持視頻文本轉文本任務

下載量 51

發布時間 : 2/17/2025

模型概述

該模型是一個輕量級視覺語言模型，專注於視頻內容理解和指令跟隨，能夠處理視頻與文本的交互任務

輕量級設計

僅500M參數規模，適合資源有限的環境部署

視頻理解能力

專門針對視頻內容優化的視覺語言模型

指令跟隨

能夠理解和執行基於視頻內容的複雜指令

MLX優化

轉換為MLX格式，可在Apple Silicon設備上高效運行

視頻內容理解

文本生成

指令跟隨

多模態推理

視頻內容分析

視頻內容描述

根據視頻內容生成詳細描述

視頻問答

回答關於視頻內容的特定問題

教育

教學視頻輔助

根據教學視頻生成學習要點和總結

屬性	詳情
庫名稱	transformers
數據集	HuggingFaceM4/the_cauldron、HuggingFaceM4/Docmatix
任務類型	視頻文本到文本
基礎模型	HuggingFaceTB/SmolLM2 - 360M - Instruct、google/siglip - base - patch16 - 512、HuggingFaceTB/SmolVLM2 - 500M - Video - Instruct
標籤	mlx