O

Open Qwen2VL

weizhiwangによって開発
Open-Qwen2VLはマルチモーダルモデルで、画像とテキストを入力として受け取り、テキスト出力を生成できます。
ダウンロード数 568
リリース時間 : 3/27/2025

モデル概要

学術リソースに基づく効率的な計算で完全オープンなマルチモーダル大規模言語モデルの事前学習をサポートし、画像とテキストの入力を受け付け、テキスト出力を生成します。

モデル特徴

マルチモーダル入力
画像とテキストを同時に入力として受け取り、統合的な理解と処理を行います。
効率的な計算
学術リソースに基づく効率的な計算で、リソースが限られた研究環境に適しています。
完全オープン
モデル、コード、データが完全にオープンで、研究や二次開発が容易です。

モデル能力

画像理解
テキスト生成
マルチモーダル推論

使用事例

画像キャプション
画像内容の説明
入力された画像を詳細に説明し、自然言語テキストを生成します。
正確で詳細な画像説明テキストを生成します。
視覚的質問応答
画像に基づく質問応答
画像の内容に基づいて関連する質問に答えます。
画像内容に関連する正確な回答を提供します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase