S

Smolvlm2 500M Video Instruct

由 HuggingFaceTB 开发
轻量级多模态模型,专为分析视频内容设计,可处理视频、图像和文本输入以生成文本输出。
下载量 17.89k
发布时间 : 2/11/2025

模型简介

SmolVLM2-500M-Video是一款高效的多模态模型,能够处理视频、图像和文本输入,生成文本输出。适用于视觉问答、字幕生成、故事叙述等任务,特别适合计算资源有限的设备端应用。

模型特点

轻量高效
模型体积小巧,视频推理仅需1.8GB GPU显存,适合计算资源有限的设备端应用。
多模态支持
支持处理视频、图像和文本输入,生成文本输出,适用于多种多模态任务。
高性能
尽管体积小,但在复杂多模态任务上表现强劲,如视觉问答、字幕生成等。

模型能力

视觉问答
字幕生成
故事叙述
文本转录
视频分析
图像分析

使用案例

媒体分析
视频内容描述
分析视频内容并生成详细描述。
生成准确的视频内容描述
图像比较
比较多张图像的相似之处。
识别并描述图像间的相似性
内容生成
故事叙述
基于视觉内容生成故事叙述。
生成连贯的故事叙述
字幕生成
为视频或图像生成字幕。
生成准确的字幕
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase