SpaceQwen2.5-VL-3B-Instructオープンソース多モーダルモデル

ホーム

Spaceqwen2.5 VL 3B Instruct

remyxaiによって開発

Qwen2.5-VL-3B-Instructをファインチューニングしたマルチモーダル視覚言語モデルで、空間推論能力に特化

テキスト生成画像英語オープンソースライセンス:Apache-2.0 #空間推論 #エンボディドAI #マルチモーダルVLM

ダウンロード数 7,446

リリース時間 : 1/29/2025

モデル概要

このモデルはLoRAファインチューニングにより空間推論能力を強化し、物体間の空間関係に関連する視覚質問応答タスクを処理可能。ロボットナビゲーションやエンボディドAIなどのシナリオに適応

モデル特徴

強化された空間推論

合成データによる訓練で、距離推定や方位判断などの空間推論能力を特別に最適化

マルチモーダル理解

画像とテキスト入力を同時に処理し、視覚シーン内の物体関係を理解可能

軽量ファインチューニング

LoRA手法を採用した効率的なファインチューニングで、基本モデルの能力を維持しながら特定機能を追加

モデル能力

視覚質問応答

空間関係推論

距離推定

物体位置特定

マルチモーダル理解

使用事例

ロボットナビゲーション

倉庫環境ナビゲーション

ロボットが倉庫環境内の物体の空間関係を理解するのを支援

物体の位置や距離に関する質問に正確に回答可能

エンボディドAI

環境インタラクション

エンボディドエージェントに空間認識能力を提供

エージェントが環境とより良く相互作用できるようにする

🚀 SpaceQwen2.5-VL-3B-Instruct

このモデルは、マルチモーダルモデルの空間推論能力を強化するために、データ合成技術と公開されているモデルを使用しています。シーン内のオブジェクト間の空間関係を推論し、空間推論用のVQAデータセットを作成することができます。

🚀 クイックスタート

✨ 主な機能

モデルタイプ：マルチモーダル、ビジョン言語モデル
アーキテクチャ：Qwen2.5-VL-3B-Instruct
モデルサイズ：37.5億パラメータ (FP16)
ファインチューニング元：Qwen/Qwen2.5-VL-3B-Instruct
ファインチューニング戦略：LoRA (低ランク適応)
ライセンス：Apache-2.0

このモデルは、データ合成技術と公開されているモデルを使用して、SpatialVLMで説明されている作業を再現し、マルチモーダルモデルの空間推論能力を強化します。エキスパートモデルのパイプラインを使用して、シーン内のオブジェクト間の空間関係を推論し、空間推論用のVQAデータセットを作成することができます。

📦 インストール

Transformers

qwenの依存関係をインストールします。

pip install qwen-vl-utils[decord]==0.0.8

💻 使用例

基本的な使用法

サンプル画像で推論を実行するには、次のコードを使用します。

from transformers import Qwen2_5_VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info

model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
    "remyxai/SpaceQwen2.5-VL-3B-Instruct", torch_dtype="auto", device_map="auto"
)
processor = AutoProcessor.from_pretrained("remyxai/SpaceQwen2.5-VL-3B-Instruct")

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "https://raw.githubusercontent.com/remyxai/VQASynth/refs/heads/main/assets/warehouse_sample_2.jpeg",
            },
            {"type": "text", "text": "What is the height of the man in the red hat in feet?"},
        ],
    }
]

# Preparation for inference
text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)
inputs = inputs.to("cuda")

# Inference: Generation of the output
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

高度な使用法

SpaceQwen2.5-VL-3B-Instructをllama.cppを使用して実行するには、次のコマンドを使用します。

./llama-qwen2vl-cli -m /path/to/SpaceQwen2.5-VL-3B-Instruct/SpaceQwen2.5-VL-3B-Instruct-F16.gguf \
                    --mmproj /path/to/SpaceQwen2.5-VL-3B-Instruct/spaceqwen2.5-vl-3b-instruct-vision.gguf \
                    -p "What's the height of the man in the red hat?" \
                    --image /path/to/warehouse_sample_2.jpeg --threads 24 -ngl 99

📚 ドキュメント

データセットとトレーニング

SpaceQwen2.5-VL-3B-Instructは、OpenSpacesデータセットでQwen2.5-VL-3B-InstructをLoRAでファインチューニングしています。

データセットの概要：

約10,000の合成空間推論トレース
質問タイプ：空間関係 (距離 (単位)、上、左、包含、最も近い)
形式：画像 (RGB) + 質問 + 回答
データセット：OpenSpaces
コード：VQASynth
参考文献：SpatialVLM

LoRA SFTのスクリプトは、trlで入手できます。

モデル評価 (近日公開)

VLMEvalKit QSpatialベンチマークの更新にご期待ください。

予定されている比較：

🌋 SpaceLLaVA
🧑‍🏫 SpaceQwen2.5-VL-3B-Instruct
🤖 ロボット用の関連するVLMとVLA

DiscordまたはHF spaceで試すこともできます。

🔧 技術詳細

制限事項と倫理的な考慮事項

混雑した環境やカメラの視点では、性能が低下する可能性があります。
このモデルは、インターネット上の画像データセットに対する合成推論を使用してファインチューニングされています。
ベースモデル (Qwen2.5-VL) に固有のマルチモーダルバイアスが残る可能性があります。
安全上重要な決定や法的な決定には使用しないでください。

ユーザーは、出力を批判的に評価し、ドメイン固有の安全性とパフォーマンスのためにファインチューニングを検討することをお勧めします。

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

引用

@article{chen2024spatialvlm,
  title = {SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities},
  author = {Chen, Boyuan and Xu, Zhuo and Kirmani, Sean and Ichter, Brian and Driess, Danny and Florence, Pete and Sadigh, Dorsa and Guibas, Leonidas and Xia, Fei},
  journal = {arXiv preprint arXiv:2401.12168},
  year = {2024},
  url = {https://arxiv.org/abs/2401.12168},
}

@misc{qwen2.5-VL,
    title = {Qwen2.5-VL},
    url = {https://qwenlm.github.io/blog/qwen2.5-vl/},
    author = {Qwen Team},
    month = {January},
    year = {2025}
}