S

Smolvlm2 2.2B Instruct

Developed by HuggingFaceTB
SmolVLM2-2.2B 是一款轻量级多模态模型,专为分析视频内容而设计,可处理视频、图像和文本输入并生成文本输出。
Downloads 62.56k
Release Time : 2/8/2025

Model Overview

该模型能够回答关于媒体文件的问题、比较视觉内容或从图像中转录文本,适合计算资源有限的设备端应用。

Model Features

轻量高效
仅需5.2GB GPU显存即可进行视频推理,适合资源有限的环境
多模态支持
可同时处理视频、图像和文本输入,支持多种媒体交错排列
设备端适用
小巧的体积使其特别适合在计算资源有限的设备上运行
强任务表现
尽管体积小,但在复杂多模态任务上表现强劲

Model Capabilities

视觉问答
视频内容描述
图像内容描述
多图像比较分析
文本转录
基于视觉内容的故事讲述

Use Cases

内容分析
视频亮点生成
分析视频内容并生成关键事件描述
可用于自动生成视频摘要
视觉问答
回答关于图像或视频内容的特定问题
在Mathvista基准测试中达到51.5分
文档处理
文本转录
从图像中提取和转录文本内容
在OCRBench基准测试中达到72.9分
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase