N

Nousresearch Nous Hermes 2 Vision GGUF

PsiPiによって開発
Mistral-7Bベースの視覚言語モデルで、SigLIP-400M視覚エンコーダーと関数呼び出し機能を統合、マルチモーダルインタラクションをサポート
ダウンロード数 905
リリース時間 : 12/7/2023

モデル概要

これは画期的な視覚言語モデルで、SigLIPアーキテクチャと関数呼び出しデータセットによって強化され、複雑な視覚言語タスクを処理し自動操作を実行可能

モデル特徴

効率的な視覚エンコーディング
従来の3B視覚エンコーダーをSigLIP-400Mアーキテクチャで置き換え、軽量化を維持しながら性能ブレークスルーを実現
関数呼び出し機能
15万件のプライベート関数呼び出しデータで訓練され、構造化された関数呼び出しを解析・実行可能
マルチモーダルインタラクション
画像理解とテキスト生成の連携処理をサポートし、複雑な視覚言語タスクを実現

モデル能力

画像理解
視覚的質問応答
構造化データ抽出
マルチターン対話
自動化タスク実行

使用事例

インテリジェントカスタマーサポート
製品識別と推薦
ユーザーがアップロードした製品画像に基づき詳細情報と提案を提供
メニュー内の食品項目を正確に識別し構造化出力を生成
自動化システム
視覚データ抽出
画像から構造化情報を抽出しJSON形式に変換
バスの色、特徴、状態などの属性を正常に抽出
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase