Smolvlm2 2.2B Instruct GGUF
SmolVLM2-2.2B-Instructは2.2Bパラメータの視覚言語モデルで、動画テキストからテキストへのタスクに特化し、英語をサポートしています。
ダウンロード数 235
リリース時間 : 4/25/2025
モデル概要
このモデルはHuggingFaceTB/SmolVLM2-2.2B-Instructに基づく量子化版の視覚言語モデルで、動画関連のテキスト生成タスクの処理に特化しています。
モデル特徴
複数データセットでの学習
モデルはDocmatix、LLaVA-OneVision-Dataなどの高品質な複数データセットで学習されており、汎化能力が強化されています。
多様な量子化バージョン
Q2_K、Q3_K_Sなど複数の量子化バージョンを提供しており、ユーザーは速度と品質のバランスを考慮して適切なバージョンを選択できます。
効率的な推論
量子化バージョンによりモデルサイズが大幅に縮小され、推論速度が向上し、リソースが限られた環境に適しています。
モデル能力
動画テキスト生成
マルチモーダル理解
指示追従
使用事例
動画コンテンツ分析
動画字幕生成
動画の内容に基づいて記述的な字幕を生成します。
動画質問応答
動画の内容に関する特定の質問に答えます。
教育
教育動画の要約
教育動画の簡潔な要約を生成し、学生が内容を迅速に理解できるようにします。
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98