Nousresearch Nous Hermes 2 Vision GGUF
N
Nousresearch Nous Hermes 2 Vision GGUF
PsiPiによって開発
Mistral-7Bベースの視覚言語モデルで、SigLIP-400M視覚エンコーダーと関数呼び出し機能を統合、マルチモーダルインタラクションをサポート
ダウンロード数 905
リリース時間 : 12/7/2023
モデル概要
これは画期的な視覚言語モデルで、SigLIPアーキテクチャと関数呼び出しデータセットによって強化され、複雑な視覚言語タスクを処理し自動操作を実行可能
モデル特徴
効率的な視覚エンコーディング
従来の3B視覚エンコーダーをSigLIP-400Mアーキテクチャで置き換え、軽量化を維持しながら性能ブレークスルーを実現
関数呼び出し機能
15万件のプライベート関数呼び出しデータで訓練され、構造化された関数呼び出しを解析・実行可能
マルチモーダルインタラクション
画像理解とテキスト生成の連携処理をサポートし、複雑な視覚言語タスクを実現
モデル能力
画像理解
視覚的質問応答
構造化データ抽出
マルチターン対話
自動化タスク実行
使用事例
インテリジェントカスタマーサポート
製品識別と推薦
ユーザーがアップロードした製品画像に基づき詳細情報と提案を提供
メニュー内の食品項目を正確に識別し構造化出力を生成
自動化システム
視覚データ抽出
画像から構造化情報を抽出しJSON形式に変換
バスの色、特徴、状態などの属性を正常に抽出
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98