Llava Video 7B Qwen2
Apache-2.0
LLaVA-ビデオモデルはQwen2言語モデルをベースとした7Bパラメータのマルチモーダルモデルで、ビデオ理解タスクに特化しており、64フレームのビデオ入力をサポートします。
ビデオ生成テキスト
Transformers 英語

L
lmms-lab
34.28k
91
Llava NeXT Video 7B DPO Hf
LLaVA-NeXT-Videoはオープンソースのマルチモーダルチャットボットで、動画と画像データの混合トレーニングにより最適化され、優れた動画理解能力を備えています。
ビデオ生成テキスト
Transformers 英語

L
llava-hf
12.61k
9
Internvideo2 5 Chat 8B
Apache-2.0
InternVideo2.5は、長く豊富なコンテキスト(LRC)モデリングを強化したビデオマルチモーダル大規模言語モデルで、InternVL2.5を基盤として構築されており、細粒度の詳細を感知し、長時間の時系列構造を捉える能力を向上させることで、既存のMLLMモデルを大幅に改善しています。
ビデオ生成テキスト
Transformers 英語

I
OpenGVLab
8,265
60
Cogvlm2 Llama3 Caption
その他
CogVLM2-Captionは、CogVideoXモデルのトレーニングデータを生成するためのビデオ記述生成モデルです。
ビデオ生成テキスト
Transformers 英語

C
THUDM
7,493
95
Spacetimegpt
時空間GPTは、空間的および時間的推論が可能なビデオ記述生成モデルで、ビデオフレームを分析し、ビデオイベントを記述する文を生成できます。
ビデオ生成テキスト
Transformers 英語

S
Neleac
2,877
33
Video R1 7B
Apache-2.0
Video-R1-7BはQwen2.5-VL-7B-Instructを最適化したマルチモーダル大規模言語モデルで、ビデオ推論タスクに特化しており、ビデオコンテンツを理解し関連する質問に答えることができます。
ビデオ生成テキスト
Transformers 英語

V
Video-R1
2,129
9
Internvl 2 5 HiCo R16
Apache-2.0
InternVideo2.5は、InternVL2.5を基盤としたビデオマルチモーダル大規模言語モデル(MLLM)で、長く豊富なコンテキスト(LRC)モデリングによって強化され、細粒度の詳細を感知し、長時間の時系列構造を捉えることができます。
ビデオ生成テキスト
Transformers 英語

I
OpenGVLab
1,914
3
Videollm Online 8b V1plus
MIT
VideoLLM-onlineはLlama-3-8B-Instructをベースとしたマルチモーダル大規模言語モデルで、オンライン動画理解と動画-テキスト生成タスクに特化しています。
ビデオ生成テキスト 英語
V
chenjoya
1,688
23
Videochat R1 7B
Apache-2.0
VideoChat-R1_7B は Qwen2.5-VL-7B-Instruct をベースとしたマルチモーダル動画理解モデルで、動画とテキスト入力を処理し、テキスト出力を生成できます。
ビデオ生成テキスト
Transformers 英語

V
OpenGVLab
1,686
7
Qwen2.5 Vl 7b Cam Motion Preview
その他
Qwen2.5-VL-7B-Instructをファインチューニングしたカメラ運動分析モデルで、ビデオ内のカメラ運動分類とビデオ-テキスト検索タスクに特化
ビデオ生成テキスト
Transformers

Q
chancharikm
1,456
10
Mambavision B 1K
Apache-2.0
PAVEはビデオ大規模言語モデルの修復と適応に特化したモデルで、ビデオとテキスト間の変換能力を向上させることを目的としています。
ビデオ生成テキスト
Transformers

M
nvidia
1,082
11
Longvu Llama3 2 3B
Apache-2.0
LongVUは長動画の言語理解に向けた時空間適応圧縮技術で、長動画コンテンツを効率的に処理することを目的としています。
ビデオ生成テキスト
PyTorch
L
Vision-CAIR
1,079
7
Videochat Flash Qwen2 5 2B Res448
Apache-2.0
VideoChat-Flash-2BはUMT-L(300M)とQwen2.5-1.5Bを基に構築されたマルチモーダルモデルで、動画テキストからテキストへの変換タスクをサポートし、1フレームあたり16トークンのみを使用し、コンテキストウィンドウを128kに拡張します。
ビデオ生成テキスト
Transformers 英語

V
OpenGVLab
904
18
Vamba Qwen2 VL 7B
MIT
Vambaは混合Mamba-Transformerアーキテクチャで、クロスアテンション層とMamba-2モジュールにより効率的な長尺動画理解を実現します。
ビデオ生成テキスト
Transformers

V
TIGER-Lab
806
16
Videochat R1 Thinking 7B
Apache-2.0
VideoChat-R1-thinking_7B は Qwen2.5-VL-7B-Instruct をベースにしたマルチモーダルモデルで、動画テキストからテキストへの変換タスクに特化しています。
ビデオ生成テキスト
Transformers 英語

V
OpenGVLab
800
0
Videochat Flash Qwen2 7B Res448
Apache-2.0
VideoChat-Flash-7BはUMT-L (300M)とQwen2-7Bを基に構築されたマルチモーダルモデルで、1フレームあたりわずか16トークンを使用し、約10,000フレームまでの長い入力シーケンスをサポートします。
ビデオ生成テキスト
Transformers 英語

V
OpenGVLab
661
12
Tarsier 7b
Tarsier-7b は Tarsier シリーズのオープンソース大規模動画言語モデルで、高品質な動画説明の生成と優れた汎用動画理解能力に特化しています。
ビデオ生成テキスト
Transformers

T
omni-research
635
23
Internvideo2 Stage2 6B
MIT
InternVideo2は6Bパラメータ規模のマルチモーダル動画理解モデルで、動画コンテンツの分析と理解タスクに特化しています。
ビデオ生成テキスト
I
OpenGVLab
542
0
Internvideo2 Chat 8B
MIT
InternVideo2-Chat-8Bは大規模言語モデル(LLM)と動画BLIPを統合した動画理解モデルで、段階的学習スキームにより構築され、動画の意味理解と人間とのインタラクションが可能です。
ビデオ生成テキスト
Transformers 英語

I
OpenGVLab
492
22
Llava Video 7B Qwen2 TPO
MIT
LLaVA-Video-7B-Qwen2-TPOはLLaVA-Video-7B-Qwen2を基に時間選好最適化を施した動画理解モデルで、複数のベンチマークテストで優れた性能を発揮します。
ビデオ生成テキスト
Transformers

L
ruili0
490
1
Longvu Llama3 2 1B
Apache-2.0
LongVUは長尺動画コンテンツを効率的に処理し、言語理解能力を向上させるための時空間適応圧縮技術です。
ビデオ生成テキスト
L
Vision-CAIR
465
11
Video Blip Opt 2.7b Ego4d
MIT
VideoBLIPはBLIP-2の強化版で、動画データを処理可能、言語モデルのバックボーンとしてOPT-2.7bを採用しています。
ビデオ生成テキスト
Transformers 英語

V
kpyu
429
16
Xgen Mm Vid Phi3 Mini R V1.5 128tokens 8frames
xGen-MM-Vid (BLIP-3-Video) は、動画コンテンツの理解のために設計された明示的な時間エンコーダを備えた効率的なコンパクト視覚言語モデルです。
ビデオ生成テキスト
Safetensors 英語
X
Salesforce
398
11
Videochat2 HD Stage4 Mistral 7B Hf
MIT
VideoChat2-HD-hfは、Mistral-7Bに基づくマルチモーダルビデオ理解モデルで、ビデオテキスト変換タスクに特化しています。
ビデオ生成テキスト
V
OpenGVLab
393
3
Skycaptioner V1
Apache-2.0
SkyCaptioner-V1は、ビデオデータ向けに高品質な構造化記述を生成するために特別に設計されたモデルです。専門家サブモデル、マルチモーダル大規模言語モデル、および手動アノテーションを統合することで、一般的な記述モデルが専門的な映像詳細を捉える際の限界を克服しています。
ビデオ生成テキスト
Transformers

S
Skywork
362
29
Sharecaptioner Video
GPT4Vアノテーションデータでファインチューニングされたオープンソースのビデオ記述ジェネレーターで、異なる長さ、アスペクト比、解像度のビデオをサポート
ビデオ生成テキスト
Transformers

S
Lin-Chen
264
17
Internvl 2 5 HiCo R64
Apache-2.0
長く豊富なコンテキスト(LRC)モデリングを強化した動画マルチモーダル大規模言語モデル。細かいディテールの知覚と長時間の時間的構造の捕捉能力を向上させ、既存のMLLMを改善
ビデオ生成テキスト
Transformers 英語

I
OpenGVLab
252
2
Longvu Qwen2 7B
Apache-2.0
LongVUはQwen2-7Bをベースとしたマルチモーダルモデルで、長編動画の言語理解タスクに特化し、時空間適応圧縮技術を採用しています。
ビデオ生成テキスト
L
Vision-CAIR
230
69
Longva 7B TPO
MIT
LongVA-7B-TPOはLongVA-7Bを基に時系列選好最適化を施した動画-テキストモデルで、長動画理解タスクで優れた性能を発揮します。
ビデオ生成テキスト
Transformers

L
ruili0
225
1
Llavaction 0.5B
LLaVActionは動作認識のためのマルチモーダル大規模言語モデルで、Qwen2言語モデルを基に、EPIC-KITCHENS-100-MQAデータセットでトレーニングされています。
ビデオ生成テキスト
Transformers 英語

L
MLAdaptiveIntelligence
215
1
Llava NeXT Video 34B DPO
Llama 2 は Meta が開発した一連のオープンソース大規模言語モデルで、様々な自然言語処理タスクをサポートしています。
ビデオ生成テキスト
Transformers

L
lmms-lab
214
10
Videomind 2B
Bsd-3-clause
VideoMindはマルチモーダルエージェントフレームワークで、人間の思考プロセス(タスク分解、時間的定位と検証、回答合成など)を模倣することで動画推論能力を強化します。
ビデオ生成テキスト
V
yeliudev
207
1
Internvideo2 Chat 8B HD
MIT
InternVideo2-Chat-8B-HDは、大規模言語モデルと動画BLIPを統合した動画理解モデルで、段階的学習スキームにより構築され、高精細動画入力を処理できます。
ビデオ生成テキスト
I
OpenGVLab
190
16
Slowfast Video Mllm Qwen2 7b Convnext 576 Frame64 S1t4
スローファストアーキテクチャを採用した動画マルチモーダル大規模言語モデルで、時間解像度と空間詳細のバランスを取り、64フレームの動画理解をサポート
ビデオ生成テキスト
Transformers

S
shi-labs
184
0
Timezero Charades 7B
TimeZeroは推論誘導型の大規模視覚言語モデル(LVLM)で、時間的ビデオ位置特定(TVG)タスク向けに設計されており、強化学習手法を用いてビデオ内の自然言語クエリに対応する時間的セグメントを識別します。
ビデオ生成テキスト
Transformers

T
wwwyyy
183
0
Videollama2.1 7B 16F Base
Apache-2.0
VideoLLaMA2.1はVideoLLaMA2のアップグレード版で、ビデオ大規模言語モデルにおける時空間モデリングと音声理解能力の向上に焦点を当てています。
ビデオ生成テキスト
Transformers 英語

V
DAMO-NLP-SG
179
1
Kangaroo
Apache-2.0
カンガルーは長編動画理解のために設計された強力なマルチモーダル大規模言語モデルで、中国語と英語のバイリンガル対話と長編動画入力に対応しています。
ビデオ生成テキスト
Transformers 複数言語対応

K
KangarooGroup
163
12
Llavaction 7B
LLaVActionは動作認識向けのマルチモーダル大規模言語モデル評価・トレーニングフレームワークで、Qwen2言語モデルアーキテクチャを基盤とし、一人称視点の動画理解をサポートします。
ビデオ生成テキスト
Transformers 英語

L
MLAdaptiveIntelligence
149
1
Timezero ActivityNet 7B
TimeZeroは推論誘導型の大規模視覚言語モデル(LVLM)で、時間的ビデオ位置特定(TVG)タスク向けに設計されており、強化学習手法を通じて動的なビデオ-言語関係分析を実現します。
ビデオ生成テキスト
Transformers

T
wwwyyy
142
1
Tinyllava Video R1
Apache-2.0
TinyLLaVA-Video-R1はトレーサビリティのある訓練モデルTinyLLaVA-Videoを基にした小規模動画推論モデルで、強化学習により推論力と思考力を大幅に向上させ、'ひらめきの瞬間'の創発特性を示します。
ビデオ生成テキスト
Transformers

T
Zhang199
123
2
Tarsier 34b
Apache-2.0
Tarsier-34bは、高品質なビデオ説明の生成に特化したオープンソースの大規模ビデオ言語モデルで、複数の公開ベンチマークでリーディングスコアを達成しています。
ビデオ生成テキスト
Transformers

T
omni-research
103
17
TEMPURA Qwen2.5 VL 3B S2
TEMPURAは因果関係のあるイベントを推論し、未編集ビデオの細粒度タイムスタンプ記述を生成できる視覚言語モデルです。
ビデオ生成テキスト
Transformers

T
andaba
102
1
- 1
- 2