Qwen2-VL-7B-Instruct-onnxオープンソース視覚言語モデル - 画像理解と指令インタラクションが非常に優れています

ホーム

Qwen2 VL 7B Instruct Onnx

pdufourによって開発

これはQwen2-VLアーキテクチャに基づく7Bパラメータ規模の視覚言語モデルで、画像理解と命令インタラクションをサポートします。

テキスト生成画像

Transformers

オープンソースライセンス:Apache-2.0 #マルチモーダル命令理解 #高精度視覚推論 #ブラウザサイドデプロイ

ダウンロード数 47

リリース時間 : 11/3/2024

モデル概要

このモデルはマルチモーダルな視覚言語モデルで、画像とテキスト入力を処理し、視覚質問応答や画像記述生成などのタスクを実行できます。

モデル特徴

マルチモーダル能力

画像とテキスト入力を同時に処理し、視覚言語インタラクションを実現

命令追従

自然言語命令をサポートし、命令に基づいて特定のタスクを実行可能

効率的な推論

ONNXフォーマット最適化により、WebGPU環境での実行をサポート

モデル能力

画像理解

視覚質問応答

画像記述生成

マルチモーダルインタラクション

使用事例

インテリジェントアシスタント

画像内容質問応答

ユーザーが画像をアップロードし関連質問を行うと、モデルが正確な回答を提供

ユーザー体験向上、自然な人間と機械のインタラクション実現

コンテンツ生成

自動画像記述

画像に対して詳細な文章説明を生成

コンテンツのアクセシビリティ向上、視覚障害ユーザー支援

プロパティ	詳細
モデルタイプ	Qwen/Qwen2-VL-7B-Instruct
タグ	transformers.js

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Qwen2 VL 7B Instruct Onnx

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Qwen2-VL-7B画像モデル

🚀 クイックスタート

📄 ライセンス