SmolVLM2 - 2.2B - Instructオープンソースビジュアル言語モデル - 英語のビデオテキストからテキストへのタスクをサポート

ホーム

Smolvlm2 2.2B Instruct I1 GGUF

mradermacherによって開発

SmolVLM2-2.2B-Instructは2.2Bパラメータ規模の視覚言語モデルで、ビデオテキストからテキストへのタスクに特化し、英語をサポートしています。

英語オープンソースライセンス:Apache-2.0 #ビデオテキスト生成 #マルチモーダル命令 #軽量量子化

ダウンロード数 285

リリース時間 : 4/25/2025

モデル概要

このモデルは量子化バージョンの視覚言語モデルで、複数のビデオとテキストデータセットに基づいて訓練されており、ビデオコンテンツの理解と生成タスクに適しています。

モデル特徴

複数データセット訓練

モデルはthe_cauldron、Docmatix、LLaVA-OneVision-Dataなどの高品質なビデオとテキストデータセットに基づいて訓練されています。

多様な量子化バージョン

極低品質のIQ1_Sから高品質のQ6_Kまで、さまざまな量子化バージョンを提供し、異なるハードウェアと性能要件に対応します。

ビデオ理解能力

ビデオコンテンツの理解とテキスト生成に特化しており、ビデオ字幕生成、ビデオコンテンツ分析などのタスクに適しています。

モデル能力

ビデオコンテンツ理解

テキスト生成

ビデオ字幕生成

マルチモーダル推論

使用事例

ビデオコンテンツ分析

ビデオ字幕生成

ビデオコンテンツに記述的な字幕を生成する

ビデオコンテンツ要約

ビデオからキー情報を抽出し要約を生成する

教育

教育ビデオ解説

教育ビデオの解説テキストを生成する

🚀 SmolVLM2-2.2B-Instruct

このプロジェクトは、HuggingFaceTB/SmolVLM2-2.2B-Instructモデルに関連する重みの量子化バージョンを提供します。複数のデータセットを使用して訓練され、video-text-to-textのタスクに対応しています。

🚀 クイックスタート

このモデルの量子化バージョンを使用するには、下記の情報を参考にしてください。

📚 ドキュメント

モデル情報

属性	詳情
ベースモデル	HuggingFaceTB/SmolVLM2-2.2B-Instruct
訓練データセット	HuggingFaceM4/the_cauldron HuggingFaceM4/Docmatix lmms-lab/LLaVA-OneVision-Data lmms-lab/M4-Instruct-Data HuggingFaceFV/finevideo MAmmoTH-VL/MAmmoTH-VL-Instruct-12M lmms-lab/LLaVA-Video-178K orrzohar/Video-STaR Mutonix/Vript TIGER-Lab/VISTA-400K Enxin/MovieChat-1K_train ShareGPT4Video/ShareGPT4Video
言語	en
ライブラリ名	transformers
ライセンス	apache - 2.0
量子化担当者	mradermacher
タグ	video - text - to - text

概要

https://huggingface.co/HuggingFaceTB/SmolVLM2-2.2B-Instruct のweighted/imatrix量子化バージョンです。静的量子化データは https://huggingface.co/mradermacher/SmolVLM2-2.2B-Instruct-GGUF で入手できます。

使用方法

GGUFファイルの使用方法がわからない場合は、TheBloke's READMEs を参照してください。ここには、マルチパートファイルの結合方法も含まれています。

提供される量子化バージョン

（サイズ順に並べられており、必ずしも品質の順ではありません。IQ量子化は同サイズの非IQ量子化よりも優れていることが多いです）

リンク	タイプ	サイズ(GB)	備考
GGUF	i1-IQ1_S	0.5	非常に必要な場合
GGUF	i1-IQ1_M	0.6	ほとんど必要な場合
GGUF	i1-IQ2_XXS	0.6
GGUF	i1-IQ2_XS	0.7
GGUF	i1-IQ2_S	0.7
GGUF	i1-IQ2_M	0.8
GGUF	i1-Q2_K_S	0.8	非常に低品質
GGUF	i1-Q2_K	0.8	IQ3_XXSの方が良い可能性があります
GGUF	i1-IQ3_XXS	0.8	低品質
GGUF	i1-IQ3_XS	0.9
GGUF	i1-IQ3_S	0.9	Q3_K*より良い
GGUF	i1-Q3_K_S	0.9	IQ3_XSの方が良い可能性があります
GGUF	i1-IQ3_M	1.0
GGUF	i1-Q3_K_M	1.0	IQ3_Sの方が良い可能性があります
GGUF	i1-Q3_K_L	1.1	IQ3_Mの方が良い可能性があります
GGUF	i1-IQ4_XS	1.1
GGUF	i1-IQ4_NL	1.1	IQ4_XSを選ぶことをおすすめします
GGUF	i1-Q4_0	1.2	高速で低品質
GGUF	i1-Q4_K_S	1.2	サイズ/速度/品質のバランスが良い
GGUF	i1-Q4_K_M	1.2	高速でおすすめ
GGUF	i1-Q4_1	1.3
GGUF	i1-Q5_K_S	1.4
GGUF	i1-Q5_K_M	1.4
GGUF	i1-Q6_K	1.6	静的Q6_Kに近い

ikawrakowによる低品質量子化タイプの比較グラフです（値が低い方が良い）：

また、Artefact2によるこの問題に関する考察もあります： https://gist.github.com/Artefact2/b5f810600771265fc1e39442288e8ec9

よくある質問 / モデルリクエスト

質問に対する回答や他のモデルの量子化を依頼する場合は、https://huggingface.co/mradermacher/model_requests を参照してください。

謝辞

この作業を可能にするために、私の会社 nethype GmbH にサーバーを使用させていただき、ワークステーションのアップグレードを提供してくれたことに感謝します。また、@nicoboss が私に彼のプライベートスーパーコンピューターへのアクセスを許可してくれたことにも感謝します。これにより、私は通常よりもはるかに高品質の多くのimatrix量子化を提供することができました。