# 長尺動画理解

Vamba Qwen2 VL 7B
MIT
Vambaは混合Mamba-Transformerアーキテクチャで、クロスアテンション層とMamba-2モジュールにより効率的な長尺動画理解を実現します。
ビデオ生成テキスト Transformers
V
TIGER-Lab
806
16
Qwen2.5 VL 3B Instruct 4bit
Qwen2.5-VLはQwenファミリーの最新ビジョン・ランゲージモデルで、強化された視覚理解、エージェント機能、長尺動画処理能力を備えています。
テキスト生成画像 Transformers 英語
Q
jarvisvasu
174
3
Longvu Llama3 2 1B
Apache-2.0
LongVUは長尺動画コンテンツを効率的に処理し、言語理解能力を向上させるための時空間適応圧縮技術です。
ビデオ生成テキスト
L
Vision-CAIR
465
11
Llava Video 7B Qwen2
Apache-2.0
LLaVA-ビデオモデルはQwen2言語モデルをベースとした7Bパラメータのマルチモーダルモデルで、ビデオ理解タスクに特化しており、64フレームのビデオ入力をサポートします。
ビデオ生成テキスト Transformers 英語
L
lmms-lab
34.28k
91
Timesformer Large Finetuned K400
TimeSformerは、空間-時間注意メカニズムに基づくビデオ分類モデルで、ビデオ理解タスク専用に設計されています。
動画処理 Transformers
T
fcakyon
254
0
Timesformer Base Finetuned K600
TimeSformerは空間-時間注意メカニズムに基づく動画分類モデルで、Kinetics-600データセットでファインチューニングされています。
動画処理 Transformers
T
fcakyon
20
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase