# 動画質問応答

Llava Video 7B Qwen2 TPO
MIT
LLaVA-Video-7B-Qwen2-TPOはLLaVA-Video-7B-Qwen2を基に時間選好最適化を施した動画理解モデルで、複数のベンチマークテストで優れた性能を発揮します。
ビデオ生成テキスト Transformers
L
ruili0
490
1
Auroracap 7B VID Xtuner
Apache-2.0
AuroraCapは画像と動画の字幕生成に特化したマルチモーダル大規模言語モデルで、効率的で詳細な動画字幕生成に焦点を当てています。
ビデオ生成テキスト
A
wchai
31
5
Tarsier 7b
Tarsier-7b は Tarsier シリーズのオープンソース大規模動画言語モデルで、高品質な動画説明の生成と優れた汎用動画理解能力に特化しています。
ビデオ生成テキスト Transformers
T
omni-research
635
23
Cogvlm2 Video Llama3 Chat
その他
CogVLM2-Videoは高性能な動画理解モデルで、複数の動画質問応答タスクにおいて最先端の性能を達成し、1分以内に動画理解を完了できます。
テキスト生成ビデオ Transformers 英語
C
THUDM
2,384
48
Llava NeXT Video 7B DPO Hf
LLaVA-NeXT-Videoはオープンソースのマルチモーダルチャットボットで、動画と画像データの混合トレーニングにより最適化され、優れた動画理解能力を備えています。
ビデオ生成テキスト Transformers 英語
L
llava-hf
12.61k
9
Llava NeXT Video 7B Hf
LLaVA-NeXT-Videoはオープンソースのマルチモーダルチャットボットで、動画と画像データの混合トレーニングにより優れた動画理解能力を獲得し、VideoMMEベンチマークでオープンソースモデルのSOTAレベルを達成しました。
テキスト生成ビデオ Transformers 英語
L
llava-hf
65.95k
88
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase