S

Smolvlm2 256M Video Instruct

由HuggingFaceTB開發
SmolVLM2-256M-Video是一款輕量級多模態模型,專為分析視頻內容而設計,能夠處理視頻、圖像和文本輸入並生成文本輸出。
下載量 22.16k
發布時間 : 2/11/2025

模型概述

該模型能夠處理視頻、圖像和文本輸入,生成文本輸出,適用於回答關於媒體文件的問題、比較視覺內容或從圖像中轉錄文本等任務。儘管體積小巧,進行視頻推理時僅需1.38GB的GPU內存,適合設備端應用。

模型特點

輕量高效
模型體積小巧,進行視頻推理時僅需1.38GB的GPU內存,適合計算資源有限的設備端應用。
多模態處理
能夠同時處理視頻、圖像和文本輸入,並生成文本輸出。
設備端適用
特別適合需要特定領域微調且計算資源可能有限的設備端應用。

模型能力

視頻內容分析
圖像內容分析
文本生成
視覺問答
字幕生成
基於視覺內容的故事講述

使用案例

媒體分析
視頻描述生成
分析視頻內容並生成詳細的文字描述。
圖像問答
回答關於圖像內容的特定問題。
內容創作
視覺故事講述
基於提供的圖像或視頻內容生成連貫的故事。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase