Qwen2-VL-2B-Instructオープンソースマルチモーダルモデル - 無料でデプロイして画像テキストをテキストへのタスクを実現

ホーム

Qwen2 VL 2B Instruct

FriendliAIによって開発

Qwen2-VL-2B-Instruct はマルチモーダル視覚言語モデルで、画像テキストからテキストへのタスクをサポートします。

画像生成テキスト

Transformers

英語オープンソースライセンス:Apache-2.0 #マルチモーダル命令理解 #画像テキストインタラクション #軽量視覚言語

ダウンロード数 24

リリース時間 : 3/17/2025

モデル概要

このモデルはQwen2-VL-2Bをベースにしたマルチモーダル視覚言語モデルで、画像とテキストのインタラクションタスクを処理できます。

モデル特徴

マルチモーダルサポート

画像とテキスト入力を同時に処理し、マルチモーダルインタラクションを実現します。

命令追従

命令追従タスクをサポートし、ユーザーの命令に基づいて対応するテキスト出力を生成できます。

最適化されたトークン処理

tokenizer.jsonに欠落していた`<|image_pad|>`と`<|video_pad|>`トークンを追加し、処理効率を向上させました。

モデル能力

画像テキスト理解

マルチモーダルインタラクション

命令追従

使用事例

マルチモーダルインタラクション

画像キャプション生成

入力画像に基づいて詳細なテキスト記述を生成します。

視覚的質問応答

入力画像に関する質問に答えます。

属性	详情
モデル作成者	Qwen
元のモデル	Qwen2-VL-2B-Instruct
パイプラインタグ	image-text-to-text
タグ	multimodal
ライブラリ名	transformers
ベースモデル	Qwen/Qwen2-VL-2B

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Qwen2 VL 2B Instruct

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Qwen/Qwen2-VL-2B-Instruct

🚀 クイックスタート

✨ 主な機能

差分点

📄 ライセンス

モデル情報