# 長動画理解

Internvl 2 5 HiCo R64
Apache-2.0
長く豊富なコンテキスト(LRC)モデリングを強化した動画マルチモーダル大規模言語モデル。細かいディテールの知覚と長時間の時間的構造の捕捉能力を向上させ、既存のMLLMを改善
ビデオ生成テキスト Transformers 英語
I
OpenGVLab
252
2
Internvideo2 5 Chat 8B
Apache-2.0
InternVideo2.5は、長く豊富なコンテキスト(LRC)モデリングを強化したビデオマルチモーダル大規模言語モデルで、InternVL2.5を基盤として構築されており、細粒度の詳細を感知し、長時間の時系列構造を捉える能力を向上させることで、既存のMLLMモデルを大幅に改善しています。
ビデオ生成テキスト Transformers 英語
I
OpenGVLab
8,265
60
Llava Video 7B Qwen2 TPO
MIT
LLaVA-Video-7B-Qwen2-TPOはLLaVA-Video-7B-Qwen2を基に時間選好最適化を施した動画理解モデルで、複数のベンチマークテストで優れた性能を発揮します。
ビデオ生成テキスト Transformers
L
ruili0
490
1
Longva 7B TPO
MIT
LongVA-7B-TPOはLongVA-7Bを基に時系列選好最適化を施した動画-テキストモデルで、長動画理解タスクで優れた性能を発揮します。
ビデオ生成テキスト Transformers
L
ruili0
225
1
Apollo LMMs Apollo 1 5B T32
Apache-2.0
Apolloは動画理解に特化した一連の大型マルチモーダルモデルで、長尺動画の内容理解、時系列推論、複雑な動画質問応答などのタスクに優れています。
ビデオ生成テキスト
A
GoodiesHere
37
10
Longvu Llama3 2 3B
Apache-2.0
LongVUは長動画の言語理解に向けた時空間適応圧縮技術で、長動画コンテンツを効率的に処理することを目的としています。
ビデオ生成テキスト PyTorch
L
Vision-CAIR
1,079
7
Oryx 1.5 7B
Apache-2.0
Oryx-1.5-7BはQwen2.5言語モデルを基に開発された7Bパラメータモデルで、32Kトークンのコンテキストウィンドウをサポートし、任意の空間サイズと時間長の視覚入力を効率的に処理することに特化しています。
テキスト生成ビデオ Safetensors 複数言語対応
O
THUdyh
133
7
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase