S

Smolvlm2 2.2B Instruct

由HuggingFaceTB開發
SmolVLM2-2.2B 是一款輕量級多模態模型,專為分析視頻內容而設計,可處理視頻、圖像和文本輸入並生成文本輸出。
下載量 62.56k
發布時間 : 2/8/2025

模型概述

該模型能夠回答關於媒體文件的問題、比較視覺內容或從圖像中轉錄文本,適合計算資源有限的設備端應用。

模型特點

輕量高效
僅需5.2GB GPU顯存即可進行視頻推理,適合資源有限的環境
多模態支持
可同時處理視頻、圖像和文本輸入,支持多種媒體交錯排列
設備端適用
小巧的體積使其特別適合在計算資源有限的設備上運行
強任務表現
儘管體積小,但在複雜多模態任務上表現強勁

模型能力

視覺問答
視頻內容描述
圖像內容描述
多圖像比較分析
文本轉錄
基於視覺內容的故事講述

使用案例

內容分析
視頻亮點生成
分析視頻內容並生成關鍵事件描述
可用於自動生成視頻摘要
視覺問答
回答關於圖像或視頻內容的特定問題
在Mathvista基準測試中達到51.5分
文檔處理
文本轉錄
從圖像中提取和轉錄文本內容
在OCRBench基準測試中達到72.9分
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase