NousResearch_Nous - Hermes - 2 - Vision - GGUFオープンソースモデル - マルチモーダルインタラクションをサポートするビジュアル言語ツール

ホーム

Nousresearch Nous Hermes 2 Vision GGUF

PsiPiによって開発

Mistral-7Bベースの視覚言語モデルで、SigLIP-400M視覚エンコーダーと関数呼び出し機能を統合、マルチモーダルインタラクションをサポート

画像生成テキスト英語オープンソースライセンス:Apache-2.0 #視覚言語関数呼び出し #SigLIP効率的エンコーディング #マルチモーダル対話システム

ダウンロード数 905

リリース時間 : 12/7/2023

モデル概要

これは画期的な視覚言語モデルで、SigLIPアーキテクチャと関数呼び出しデータセットによって強化され、複雑な視覚言語タスクを処理し自動操作を実行可能

モデル特徴

効率的な視覚エンコーディング

従来の3B視覚エンコーダーをSigLIP-400Mアーキテクチャで置き換え、軽量化を維持しながら性能ブレークスルーを実現

関数呼び出し機能

15万件のプライベート関数呼び出しデータで訓練され、構造化された関数呼び出しを解析・実行可能

マルチモーダルインタラクション

画像理解とテキスト生成の連携処理をサポートし、複雑な視覚言語タスクを実現

モデル能力

画像理解

視覚的質問応答

構造化データ抽出

マルチターン対話

自動化タスク実行

使用事例

インテリジェントカスタマーサポート

製品識別と推薦

ユーザーがアップロードした製品画像に基づき詳細情報と提案を提供

メニュー内の食品項目を正確に識別し構造化出力を生成

自動化システム

視覚データ抽出

画像から構造化情報を抽出しJSON形式に変換

バスの色、特徴、状態などの属性を正常に抽出

🚀 Nous-Hermes-2-Vision - Mistral 7B

ギリシャ神話の世界では、ヘルメスは雄弁な神の使者として君臨し、彼は巧みにコミュニケーションの芸術を通じて異なる領域をつなぎます。この神聖な媒介者に敬意を表して、私はこの高度な大規模言語モデルを「ヘルメス」と名付けました。このシステムは、人間の会話の複雑な入り組みを神のような器用さで操るように設計されています。

🚀 クイックスタート

GGUF形式の量子化モデルはTwobobによって提供されており、@jartine と @cmp-nct の支援に感謝します。

Vicunaの参照はこちらです。

注意点として、推論にはまだ何らかのバグが存在する可能性があり、上流で修正される予定です。ご了承ください。

image/png

✨ 主な機能

Nous-Hermes-2-Visionは、画期的なビジョン言語モデルです。tekniumによる著名なOpenHermes-2.5-Mistral-7Bの進歩を活用しており、2つの重要な機能強化を備えています。

SigLIP-400Mの統合：通常の大規模な3Bビジョンエンコーダに依存するアプローチとは異なり、Nous-Hermes-2-Visionは強力なSigLIP-400Mを利用しています。この戦略的な選択により、モデルのアーキテクチャが軽量化されるだけでなく、SigLIPの卓越した機能を活用することで、従来の予想を超える性能向上が実現されています。
関数呼び出しを含むカスタムデータセット：このモデルの学習データには、関数呼び出しという独自の機能が含まれています。この独特な追加機能により、Nous-Hermes-2-Visionはビジョン言語アクションモデルとして機能し、開発者は様々な独創的な自動化を作成するための多用途のツールを手にすることができます。

このプロジェクトは、qnguyen3 と teknium によって主導されています。

📦 インストール

データセット

LVIS-INSTRUCT4V から220K
ShareGPT4V から60K
非公開の関数呼び出しデータ 150K
tekniumのOpenHermes-2.5 から50Kの会話データ

💻 使用例

基本的な使用法

プロンプトフォーマット

他のLLaVAのバリアントと同様に、このモデルはVicuna-V1をプロンプトテンプレートとして使用しています。詳細はこのファイルの conv_llava_v1 を参照してください。 Gradio UIを使用する場合は、このGitHubリポジトリを訪問してください。

関数呼び出し

関数呼び出しの場合、メッセージは <fn_call> タグで始める必要があります。以下は例です。

<fn_call>{
  "type": "object",
  "properties": {
    "bus_colors": {
      "type": "array",
      "description": "The colors of the bus in the image.",
      "items": {
        "type": "string",
        "enum": ["red", "blue", "green", "white"]
      }
    },
    "bus_features": {
      "type": "string",
      "description": "The features seen on the back of the bus."
    },
    "bus_location": {
      "type": "string",
      "description": "The location of the bus (driving or pulled off to the side).",
      "enum": ["driving", "pulled off to the side"]
    }
  }
}

出力:

{
  "bus_colors": ["red", "white"],
  "bus_features": "An advertisement",
  "bus_location": "driving"
}

高度な使用法

チャット

image/png

関数呼び出し

入力画像:

入力メッセージ:

<fn_call>{
    "type": "object",
    "properties": {
      "food_list": {
        "type": "array",
        "description": "List of all the food",
        "items": {
          "type": "string",
        }
      },
    }
}

出力:

{
    "food_list": [
        "Double Burger",
        "Cheeseburger",
        "French Fries",
        "Shakes",
        "Coffee"
    ]
}

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご