Q

Qwen2 VL 2B Instruct

FriendliAIによって開発
Qwen2-VL-2B-Instruct はマルチモーダル視覚言語モデルで、画像テキストからテキストへのタスクをサポートします。
ダウンロード数 24
リリース時間 : 3/17/2025

モデル概要

このモデルはQwen2-VL-2Bをベースにしたマルチモーダル視覚言語モデルで、画像とテキストのインタラクションタスクを処理できます。

モデル特徴

マルチモーダルサポート
画像とテキスト入力を同時に処理し、マルチモーダルインタラクションを実現します。
命令追従
命令追従タスクをサポートし、ユーザーの命令に基づいて対応するテキスト出力を生成できます。
最適化されたトークン処理
tokenizer.jsonに欠落していた`<|image_pad|>`と`<|video_pad|>`トークンを追加し、処理効率を向上させました。

モデル能力

画像テキスト理解
マルチモーダルインタラクション
命令追従

使用事例

マルチモーダルインタラクション
画像キャプション生成
入力画像に基づいて詳細なテキスト記述を生成します。
視覚的質問応答
入力画像に関する質問に答えます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase