S

Smolvlm Instruct GGUF

由Mungert開發
SmolVLM是一個緊湊的開源多模態模型,能夠接受圖像和文本輸入並生成文本輸出,專為高效設計,適用於設備端應用。
下載量 1,023
發布時間 : 6/9/2025

模型概述

SmolVLM是一個輕量級多模態模型,能夠處理圖像和文本輸入,生成文本輸出。它可以回答關於圖像的問題、描述視覺內容、基於多張圖像創作故事,甚至在沒有視覺輸入的情況下作為純語言模型使用。

模型特點

多模態處理
能夠接受圖像和文本的任意序列輸入,並生成文本輸出。
高效輕量
適合設備端應用,在多模態任務上仍保持強大性能。
功能多樣
可回答圖像相關問題、描述視覺內容、創作故事等。
量化支持
支持多種量化方法,包括4/8位量化,適用於不同硬件環境。

模型能力

圖像描述
視覺問答
基於圖像的故事創作
純文本語言模型
多模態推理

使用案例

視覺內容理解
圖像描述
對輸入的圖像進行詳細描述
生成準確的圖像內容描述
視覺問答
回答關於圖像內容的問題
提供與圖像相關的準確答案
創意內容生成
故事創作
基於多張圖像創作連貫的故事
生成與圖像內容相關的創意故事
文檔理解
文檔分析
理解並分析文檔中的內容和結構
提取文檔關鍵信息
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase