S

Smolvlm2 2.2B Instruct

HuggingFaceTBによって開発
SmolVLM2-2.2Bは、動画コンテンツ分析のために設計された軽量マルチモーダルモデルで、動画、画像、テキスト入力を処理しテキスト出力を生成できます。
ダウンロード数 62.56k
リリース時間 : 2/8/2025

モデル概要

このモデルはメディアファイルに関する質問への回答、視覚コンテンツの比較、画像からのテキスト転写が可能で、計算リソースが限られたデバイスでのアプリケーションに適しています。

モデル特徴

軽量で効率的
動画推論にわずか5.2GBのGPU VRAMしか必要とせず、リソースが限られた環境に適しています
マルチモーダルサポート
動画、画像、テキスト入力を同時に処理でき、複数のメディアを交互に配置できます
エッジデバイス対応
コンパクトなサイズのため、計算リソースが限られたデバイスでの実行に特に適しています
強力なタスク性能
サイズが小さいにもかかわらず、複雑なマルチモーダルタスクで強力なパフォーマンスを発揮します

モデル能力

視覚的質問応答
動画コンテンツ記述
画像コンテンツ記述
複数画像比較分析
テキスト転写
視覚コンテンツに基づくストーリーテリング

使用事例

コンテンツ分析
動画ハイライト生成
動画コンテンツを分析し、主要なイベントの説明を生成
動画要約の自動生成に使用可能
視覚的質問応答
画像や動画コンテンツに関する特定の質問に回答
Mathvistaベンチマークで51.5点を達成
ドキュメント処理
テキスト転写
画像からテキストコンテンツを抽出・転写
OCRBenchベンチマークで72.9点を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase