S

Smolvlm Instruct GGUF

Mungertによって開発
SmolVLMはコンパクトなオープンソースのマルチモーダルモデルで、画像とテキストの入力を受け取り、テキスト出力を生成することができます。効率性を重視して設計されており、デバイス端のアプリケーションに適しています。
ダウンロード数 1,023
リリース時間 : 6/9/2025

モデル概要

SmolVLMは軽量なマルチモーダルモデルで、画像とテキストの入力を処理し、テキスト出力を生成することができます。画像に関する質問に答えたり、ビジュアルコンテンツを説明したり、複数の画像をもとにストーリーを作成したり、さらにはビジュアル入力がない場合でも純粋な言語モデルとして使用することができます。

モデル特徴

マルチモーダル処理
画像とテキストの任意のシーケンス入力を受け取り、テキスト出力を生成することができます。
効率的かつ軽量
デバイス端のアプリケーションに適しており、マルチモーダルタスクでも強力な性能を維持します。
機能が多様
画像関連の質問に答えたり、ビジュアルコンテンツを説明したり、ストーリーを作成したりすることができます。
量子化サポート
4/8ビット量子化を含むさまざまな量子化方法をサポートし、さまざまなハードウェア環境に適しています。

モデル能力

画像記述
ビジュアル質問応答
画像ベースのストーリー作成
純粋なテキスト言語モデル
マルチモーダル推論

使用事例

ビジュアルコンテンツ理解
画像記述
入力された画像を詳細に記述します。
正確な画像内容の記述を生成します。
ビジュアル質問応答
画像内容に関する質問に答えます。
画像に関連する正確な答えを提供します。
クリエイティブコンテンツ生成
ストーリー作成
複数の画像をもとに一貫したストーリーを作成します。
画像内容に関連するクリエイティブなストーリーを生成します。
ドキュメント理解
ドキュメント分析
ドキュメントの内容と構造を理解し、分析します。
ドキュメントの重要な情報を抽出します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase