NousResearch_Nous-Hermes-2-Vision-GGUF開源模型 - 支持多模態交互的視覺語言工具

首頁

Nousresearch Nous Hermes 2 Vision GGUF

由PsiPi開發

基於Mistral-7B的視覺語言模型，融合SigLIP-400M視覺編碼器和函數調用能力，支持多模態交互

圖像生成文本英語開源協議:Apache-2.0 #視覺語言函數調用 #SigLIP高效編碼 #多模態對話系統

下載量 905

發布時間 : 12/7/2023

模型概述

這是一個突破性的視覺語言模型，通過SigLIP架構和函數調用數據集增強，能夠處理複雜的視覺語言任務並執行自動化操作

模型特點

高效視覺編碼

採用SigLIP-400M架構替代傳統3B視覺編碼器，在保持輕量化的同時實現性能突破

函數調用能力

通過15萬條私有函數調用數據訓練，模型可解析並執行結構化函數調用

多模態交互

支持圖像理解和文本生成的聯合處理，實現複雜的視覺語言任務

模型能力

圖像理解

視覺問答

結構化數據提取

多輪對話

自動化任務執行

使用案例

智能客服

產品識別與推薦

根據用戶上傳的產品圖片提供詳細信息和建議

準確識別菜單中的食品項目並生成結構化輸出

自動化系統

視覺數據提取

從圖像中提取結構化信息並轉換為JSON格式

成功提取公交車顏色、特徵和狀態等屬性

🚀 Nous-Hermes-2-Vision - Mistral 7B

Nous-Hermes-2-Vision是一款前沿的視覺語言模型，它基於知名的OpenHermes-2.5-Mistral-7B進行了創新升級。該模型通過集成SigLIP-400M和融入自定義數據集，在性能和功能上實現了顯著提升，為開發者提供了強大的工具來構建各種自動化應用。

GGUF量化由Twobob完成，感謝@jartine和@cmp-nct的協助。

它遵循vicuna引用：此處

⚠️ 重要提示 推理過程中仍存在一些問題，可能會在後續版本中修復，僅供參考。

image/png

在希臘神話的畫卷中，赫爾墨斯是眾神中口才出眾的信使，他憑藉卓越的溝通技巧巧妙地連接著各個領域。為了向這位神聖的調解者致敬，我將這個先進的大語言模型命名為“赫爾墨斯”，它旨在以超凡的技巧駕馭人類話語的複雜微妙之處。

📚 模型描述

Nous-Hermes-2-Vision是一款開創性的視覺語言模型，它借鑑了teknium開發的著名的OpenHermes-2.5-Mistral-7B的先進技術。該模型有兩項關鍵改進，使其成為前沿解決方案：

集成SigLIP-400M：與依賴大型3B視覺編碼器的傳統方法不同，Nous-Hermes-2-Vision採用了強大的SigLIP-400M。這一策略不僅簡化了模型架構，使其更輕量化，還充分發揮了SigLIP的卓越性能，從而顯著提升了模型表現，超越了傳統預期。
融入含函數調用的自定義數據集：該模型的訓練數據包含一個獨特的特性——函數調用。這一獨特的添加使Nous-Hermes-2-Vision成為一個視覺語言動作模型。開發者現在擁有了一個多功能工具，可以用來構建各種巧妙的自動化應用。

此項目由qnguyen3和teknium牽頭。

🔧 訓練

📊 數據集

220K來自LVIS-INSTRUCT4V
60K來自ShareGPT4V
150K來自私有函數調用數據
50K對話來自teknium的OpenHermes-2.5

💻 使用示例

📝 提示格式

與其他LLaVA的變體一樣，此模型使用Vicuna-V1作為提示模板。請參考此文件中的conv_llava_v1。
如需使用Gradio用戶界面，請訪問此GitHub倉庫。

📞 函數調用

進行函數調用時，消息應以<fn_call>標籤開頭。以下是一個示例：

<fn_call>{
  "type": "object",
  "properties": {
    "bus_colors": {
      "type": "array",
      "description": "圖像中公交車的顏色。",
      "items": {
        "type": "string",
        "enum": ["red", "blue", "green", "white"]
      }
    },
    "bus_features": {
      "type": "string",
      "description": "公交車後部的特徵。"
    },
    "bus_location": {
      "type": "string",
      "description": "公交車的位置（行駛中或停靠在路邊）。",
      "enum": ["driving", "pulled off to the side"]
    }
  }
}

輸出：

{
  "bus_colors": ["red", "white"],
  "bus_features": "An advertisement",
  "bus_location": "driving"
}

💬 聊天示例

image/png

📞 函數調用示例

輸入圖像：

輸入消息：

<fn_call>{
    "type": "object",
    "properties": {
      "food_list": {
        "type": "array",
        "description": "所有食物的列表",
        "items": {
          "type": "string",
        }
      },
    }
}

輸出：

{
    "food_list": [
        "Double Burger",
        "Cheeseburger",
        "French Fries",
        "Shakes",
        "Coffee"
    ]
}

📄 許可證

本項目採用Apache-2.0許可證。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫