S

Smolvlm2 2.2B Instruct GGUF

mradermacherによって開発
SmolVLM2-2.2B-Instructは2.2Bパラメータの視覚言語モデルで、動画テキストからテキストへのタスクに特化し、英語をサポートしています。
ダウンロード数 235
リリース時間 : 4/25/2025

モデル概要

このモデルはHuggingFaceTB/SmolVLM2-2.2B-Instructに基づく量子化版の視覚言語モデルで、動画関連のテキスト生成タスクの処理に特化しています。

モデル特徴

複数データセットでの学習
モデルはDocmatix、LLaVA-OneVision-Dataなどの高品質な複数データセットで学習されており、汎化能力が強化されています。
多様な量子化バージョン
Q2_K、Q3_K_Sなど複数の量子化バージョンを提供しており、ユーザーは速度と品質のバランスを考慮して適切なバージョンを選択できます。
効率的な推論
量子化バージョンによりモデルサイズが大幅に縮小され、推論速度が向上し、リソースが限られた環境に適しています。

モデル能力

動画テキスト生成
マルチモーダル理解
指示追従

使用事例

動画コンテンツ分析
動画字幕生成
動画の内容に基づいて記述的な字幕を生成します。
動画質問応答
動画の内容に関する特定の質問に答えます。
教育
教育動画の要約
教育動画の簡潔な要約を生成し、学生が内容を迅速に理解できるようにします。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase