Qwen2-VL-7Bビジュアル言語モデルがオープンソース化 - 画像とテキストの入力をサポートし、多様なビジュアル言語タスクを解決

ホーム

Qwen2 VL 7B Visual Rft Lisa IoU Reward

Zeryによって開発

Qwen2-VL-7B-InstructはQwen2アーキテクチャに基づく視覚言語モデルで、画像とテキストのマルチモーダル入力をサポートし、様々な視覚言語タスクに適しています。

画像生成テキスト

Safetensors

英語オープンソースライセンス:Apache-2.0 #マルチモーダル命令理解 #視覚言語インタラクション #7Bパラメータ規模

ダウンロード数 726

リリース時間 : 3/12/2025

モデル概要

このモデルは7Bパラメータの視覚言語モデルで、画像とテキスト入力を処理し、テキスト出力を生成できます。画像キャプション生成や視覚的質問応答などのタスクに適しています。

モデル特徴

マルチモーダル入力

画像とテキストのマルチモーダル入力をサポートし、視覚と言語情報を統合して推論できます。

命令追従

命令ファインチューニングにより、ユーザーの命令をより良く理解し実行できます。

大規模パラメータ

7Bパラメータの規模により、強力な推論と生成能力を提供します。

モデル能力

画像キャプション生成

視覚的質問応答

マルチモーダル推論

テキスト生成

使用事例

画像理解

画像キャプション生成

入力画像に対して詳細なテキスト記述を生成します。

正確で豊富な画像記述を生成します。

視覚的質問応答

画像内容に関する自然言語の質問に答えます。

画像内容を説明する正確な回答を提供します。

マルチモーダルインタラクション

マルチモーダル対話

画像とテキスト入力を組み合わせた対話インタラクションを行います。

画像内容に関連する自然言語応答を生成します。

属性	详情
モデルタイプ	画像-テキスト変換モデル
ベースモデル	Qwen/Qwen2-VL-7B-Instruct
パイプラインタグ	画像-テキスト変換

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Qwen2 VL 7B Visual Rft Lisa IoU Reward

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Qwen/Qwen2-VL-7B-Instructベースの画像-テキスト変換モデル

📄 ライセンス

📚 ドキュメント