SmolVLM2 - 500M - Video - Instruct - mlxオープンソースのビデオテキスト変換モデル

Smolvlm2 500M Video Instruct Mlx

mlx-communityによって開発

これはMLX形式の動画テキスト変換モデルで、HuggingFaceTBによって開発され、英語の言語処理をサポートしています。

ダウンロード数 2,491

リリース時間 : 2/12/2025

モデル概要

このモデルはHuggingFaceTB/SmolVLM2-500M-Video-Instructから変換されたMLX形式モデルで、主に動画コンテンツの理解とテキスト生成タスクに使用されます。

動画コンテンツ理解

動画コンテンツを理解し、関連するテキスト記述を生成可能

MLX形式最適化

MLXフレームワーク向けに最適化されたモデルバージョンで、実行効率を向上

マルチモーダル処理

動画とテキストのマルチモーダル入力を処理可能

動画コンテンツ記述

動画質問応答

マルチモーダル理解

テキスト生成

動画コンテンツ分析

動画コンテンツ記述

動画コンテンツのテキスト記述を生成

動画コンテンツを正確に記述するテキストを生成可能

動画質問応答

動画コンテンツに関する質問に回答

動画コンテンツに基づいた正確な回答を提供可能

教育

教育動画分析

教育動画コンテンツを分析し要約を生成

学生が動画の要点を素早く理解するのを支援

属性	详情
モデルタイプ	Video-text-to-text
訓練データ	HuggingFaceM4/the_cauldron、HuggingFaceM4/Docmatix
ベースモデル	HuggingFaceTB/SmolLM2-360M-Instruct、google/siglip-base-patch16-512、HuggingFaceTB/SmolVLM2-500M-Video-Instruct
タグ	mlx