N

Nousresearch Nous Hermes 2 Vision GGUF

由PsiPi開發
基於Mistral-7B的視覺語言模型,融合SigLIP-400M視覺編碼器和函數調用能力,支持多模態交互
下載量 905
發布時間 : 12/7/2023

模型概述

這是一個突破性的視覺語言模型,通過SigLIP架構和函數調用數據集增強,能夠處理複雜的視覺語言任務並執行自動化操作

模型特點

高效視覺編碼
採用SigLIP-400M架構替代傳統3B視覺編碼器,在保持輕量化的同時實現性能突破
函數調用能力
通過15萬條私有函數調用數據訓練,模型可解析並執行結構化函數調用
多模態交互
支持圖像理解和文本生成的聯合處理,實現複雜的視覺語言任務

模型能力

圖像理解
視覺問答
結構化數據提取
多輪對話
自動化任務執行

使用案例

智能客服
產品識別與推薦
根據用戶上傳的產品圖片提供詳細信息和建議
準確識別菜單中的食品項目並生成結構化輸出
自動化系統
視覺數據提取
從圖像中提取結構化信息並轉換為JSON格式
成功提取公交車顏色、特徵和狀態等屬性
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase