S

Smolvlm2 256M Video Instruct

HuggingFaceTBによって開発
SmolVLM2-256M-Videoは軽量マルチモーダルモデルで、動画コンテンツ分析のために設計されており、動画、画像、テキスト入力を処理しテキスト出力を生成できます。
ダウンロード数 22.16k
リリース時間 : 2/11/2025

モデル概要

このモデルは動画、画像、テキスト入力を処理しテキスト出力を生成でき、メディアファイルに関する質問への回答、視覚コンテンツの比較、画像からのテキスト転写などのタスクに適しています。小型ながら、動画推論時にはわずか1.38GBのGPUメモリしか必要とせず、デバイスサイドアプリケーションに最適です。

モデル特徴

軽量で効率的
モデルサイズが小さく、動画推論時にはわずか1.38GBのGPUメモリしか必要とせず、計算リソースが限られたデバイスサイドアプリケーションに適しています。
マルチモーダル処理
動画、画像、テキスト入力を同時に処理し、テキスト出力を生成できます。
デバイスサイド適用
特定ドメインのファインチューニングが必要で計算リソースが限られている可能性のあるデバイスサイドアプリケーションに特に適しています。

モデル能力

動画コンテンツ分析
画像コンテンツ分析
テキスト生成
視覚的質問応答
字幕生成
視覚コンテンツに基づくストーリーテリング

使用事例

メディア分析
動画説明生成
動画コンテンツを分析し詳細な文章説明を生成します。
画像質問応答
画像コンテンツに関する特定の質問に回答します。
コンテンツ作成
視覚的ストーリーテリング
提供された画像や動画コンテンツに基づいて一貫性のあるストーリーを生成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase