2025年最佳的 68 个视频生成文本工具

Llava Video 7B Qwen2
Apache-2.0
LLaVA-视频模型是基于Qwen2语言模型的7B参数多模态模型,专注于视频理解任务,支持64帧视频输入。
视频生成文本 Transformers 英语
L
lmms-lab
34.28k
91
Llava NeXT Video 7B DPO Hf
LLaVA-NeXT-Video是一个开源多模态聊天机器人,通过视频和图像数据混合训练优化,具备优秀的视频理解能力。
视频生成文本 Transformers 英语
L
llava-hf
12.61k
9
Internvideo2 5 Chat 8B
Apache-2.0
InternVideo2.5是一款基于长且丰富上下文(LRC)建模增强的视频多模态大语言模型,构建于InternVL2.5之上,通过提升感知细粒度细节和捕捉长时序结构的能力,显著改进了现有MLLM模型。
视频生成文本 Transformers 英语
I
OpenGVLab
8,265
60
Cogvlm2 Llama3 Caption
其他
CogVLM2-Caption是一个视频描述生成模型,用于为CogVideoX模型生成训练数据。
视频生成文本 Transformers 英语
C
THUDM
7,493
95
Spacetimegpt
时空GPT是一个能够进行空间和时间推理的视频描述生成模型,能够分析视频帧并生成描述视频事件的句子。
视频生成文本 Transformers 英语
S
Neleac
2,877
33
Video R1 7B
Apache-2.0
Video-R1-7B是基于Qwen2.5-VL-7B-Instruct优化的多模态大语言模型,专注于视频推理任务,能够理解视频内容并回答相关问题。
视频生成文本 Transformers 英语
V
Video-R1
2,129
9
Internvl 2 5 HiCo R16
Apache-2.0
InternVideo2.5 是一个基于 InternVL2.5 构建的视频多模态大语言模型(MLLM),通过长且丰富的上下文(LRC)建模进行了增强,能够感知细粒度细节并捕捉长时态结构。
视频生成文本 Transformers 英语
I
OpenGVLab
1,914
3
Videollm Online 8b V1plus
MIT
VideoLLM-online是一个基于Llama-3-8B-Instruct的多模态大语言模型,专注于在线视频理解和视频-文本生成任务。
视频生成文本 英语
V
chenjoya
1,688
23
Videochat R1 7B
Apache-2.0
VideoChat-R1_7B 是一个基于 Qwen2.5-VL-7B-Instruct 的多模态视频理解模型,能够处理视频和文本输入,生成文本输出。
视频生成文本 Transformers 英语
V
OpenGVLab
1,686
7
Qwen2.5 Vl 7b Cam Motion Preview
其他
基于Qwen2.5-VL-7B-Instruct微调的摄像机运动分析模型,专注于视频中的摄像机运动分类和视频-文本检索任务
视频生成文本 Transformers
Q
chancharikm
1,456
10
Mambavision B 1K
Apache-2.0
PAVE是一个专注于视频大语言模型修补与适配的模型,旨在提升视频与文本之间的转换能力。
视频生成文本 Transformers
M
nvidia
1,082
11
Longvu Llama3 2 3B
Apache-2.0
LongVU是一种面向长视频语言理解的时空自适应压缩技术,旨在高效处理长视频内容。
视频生成文本 PyTorch
L
Vision-CAIR
1,079
7
Videochat Flash Qwen2 5 2B Res448
Apache-2.0
VideoChat-Flash-2B是基于UMT-L(300M)和Qwen2.5-1.5B构建的多模态模型,支持视频文本转文本任务,仅使用每帧16个标记,并扩展上下文窗口至128k。
视频生成文本 Transformers 英语
V
OpenGVLab
904
18
Vamba Qwen2 VL 7B
MIT
Vamba是一种混合Mamba-Transformer架构,通过交叉注意力层与Mamba-2模块实现高效的长视频理解。
视频生成文本 Transformers
V
TIGER-Lab
806
16
Videochat R1 Thinking 7B
Apache-2.0
VideoChat-R1-thinking_7B 是一个基于 Qwen2.5-VL-7B-Instruct 的多模态模型,专注于视频文本转文本任务。
视频生成文本 Transformers 英语
V
OpenGVLab
800
0
Videochat Flash Qwen2 7B Res448
Apache-2.0
VideoChat-Flash-7B是基于UMT-L (300M)和Qwen2-7B构建的多模态模型,每帧仅使用16个标记,支持输入序列长达约10,000帧。
视频生成文本 Transformers 英语
V
OpenGVLab
661
12
Tarsier 7b
Tarsier-7b 是 Tarsier 系列的开源大规模视频语言模型,专注于生成高质量视频描述并具备优秀的通用视频理解能力。
视频生成文本 Transformers
T
omni-research
635
23
Internvideo2 Stage2 6B
MIT
InternVideo2是一个多模态视频理解模型,具有6B参数规模,专注于视频内容分析和理解任务。
视频生成文本
I
OpenGVLab
542
0
Internvideo2 Chat 8B
MIT
InternVideo2-Chat-8B是一个结合大型语言模型(LLM)和视频BLIP的视频理解模型,通过渐进式学习方案构建,能够进行视频语义理解和人机交互。
视频生成文本 Transformers 英语
I
OpenGVLab
492
22
Llava Video 7B Qwen2 TPO
MIT
LLaVA-Video-7B-Qwen2-TPO是基于LLaVA-Video-7B-Qwen2进行时间偏好优化的视频理解模型,在多个基准测试中表现优异。
视频生成文本 Transformers
L
ruili0
490
1
Longvu Llama3 2 1B
Apache-2.0
LongVU 是一种面向长视频语言理解的时空自适应压缩技术,旨在高效处理长视频内容,提升语言理解能力。
视频生成文本
L
Vision-CAIR
465
11
Video Blip Opt 2.7b Ego4d
MIT
VideoBLIP是BLIP-2的增强版本,能够处理视频数据,采用OPT-2.7b作为语言模型主干。
视频生成文本 Transformers 英语
V
kpyu
429
16
Xgen Mm Vid Phi3 Mini R V1.5 128tokens 8frames
xGen-MM-Vid (BLIP-3-Video) 是一款高效的紧凑型视觉语言模型,配备了显式的时间编码器,专为理解视频内容而设计。
视频生成文本 Safetensors 英语
X
Salesforce
398
11
Videochat2 HD Stage4 Mistral 7B Hf
MIT
VideoChat2-HD-hf是一个基于Mistral-7B的多模态视频理解模型,专注于视频文本转换任务。
视频生成文本
V
OpenGVLab
393
3
Skycaptioner V1
Apache-2.0
SkyCaptioner-V1是专为视频数据生成高质量结构化描述而设计的模型,通过整合专业子专家模型、多模态大语言模型与人工标注,解决了通用描述模型在专业影视细节捕捉上的局限。
视频生成文本 Transformers
S
Skywork
362
29
Sharecaptioner Video
基于GPT4V标注数据微调的开源视频描述生成器,支持不同时长、宽高比和分辨率的视频
视频生成文本 Transformers
S
Lin-Chen
264
17
Internvl 2 5 HiCo R64
Apache-2.0
基于长且丰富的上下文(LRC)建模增强的视频多模态大语言模型,通过提升感知细粒度细节和捕捉长时态结构的能力改进现有MLLM
视频生成文本 Transformers 英语
I
OpenGVLab
252
2
Longvu Qwen2 7B
Apache-2.0
LongVU是基于Qwen2-7B的多模态模型,专注于长视频语言理解任务,采用时空自适应压缩技术。
视频生成文本
L
Vision-CAIR
230
69
Longva 7B TPO
MIT
LongVA-7B-TPO是基于LongVA-7B通过时序偏好优化而来的视频-文本模型,在长视频理解任务中表现优异。
视频生成文本 Transformers
L
ruili0
225
1
Llavaction 0.5B
LLaVAction是一个用于动作识别的多模态大语言模型,基于Qwen2语言模型,在EPIC-KITCHENS-100-MQA数据集上训练而成。
视频生成文本 Transformers 英语
L
MLAdaptiveIntelligence
215
1
Llava NeXT Video 34B DPO
Llama 2 是 Meta 开发的一系列开源大语言模型,支持多种自然语言处理任务。
视频生成文本 Transformers
L
lmms-lab
214
10
Videomind 2B
Bsd-3-clause
VideoMind是一个多模态智能体框架,通过模拟人类思维的处理流程(如任务拆解、时刻定位与验证和答案合成)来增强视频推理能力。
视频生成文本
V
yeliudev
207
1
Internvideo2 Chat 8B HD
MIT
InternVideo2-Chat-8B-HD 是一个结合了大型语言模型和视频BLIP的视频理解模型,通过渐进式学习方案构建,能够处理高清视频输入。
视频生成文本
I
OpenGVLab
190
16
Slowfast Video Mllm Qwen2 7b Convnext 576 Frame64 S1t4
采用慢-快架构的视频多模态大语言模型,平衡时间分辨率和空间细节,支持64帧视频理解
视频生成文本 Transformers
S
shi-labs
184
0
Timezero Charades 7B
TimeZero是一种基于推理引导的大型视觉语言模型(LVLM),专为时间视频定位(TVG)任务设计,通过强化学习方法实现视频中与自然语言查询相对应的时序片段识别。
视频生成文本 Transformers
T
wwwyyy
183
0
Videollama2.1 7B 16F Base
Apache-2.0
VideoLLaMA2.1是基于VideoLLaMA2的升级版本,专注于提升视频大语言模型中的时空建模与音频理解能力。
视频生成文本 Transformers 英语
V
DAMO-NLP-SG
179
1
Kangaroo
Apache-2.0
袋鼠是一个专为长视频理解设计的强大多模态大语言模型,支持中英双语对话和长视频输入。
视频生成文本 Transformers 支持多种语言
K
KangarooGroup
163
12
Llavaction 7B
LLaVAction是一个面向动作识别的多模态大语言模型评估与训练框架,基于Qwen2语言模型架构,支持第一人称视角视频理解。
视频生成文本 Transformers 英语
L
MLAdaptiveIntelligence
149
1
Timezero ActivityNet 7B
TimeZero是一种基于推理引导的大规模视觉语言模型(LVLM),专为时间视频定位(TVG)任务设计,通过强化学习方法实现动态视频-语言关系分析。
视频生成文本 Transformers
T
wwwyyy
142
1
Tinyllava Video R1
Apache-2.0
TinyLLaVA-Video-R1是基于可溯源训练模型TinyLLaVA-Video的小规模视频推理模型,通过强化学习显著提升了推理与思维能力,并展现出'顿悟时刻'的涌现特性。
视频生成文本 Transformers
T
Zhang199
123
2
Tarsier 34b
Apache-2.0
Tarsier-34b 是一个开源的大规模视频语言模型,专注于生成高质量的视频描述,并在多个公开基准测试中取得领先成绩。
视频生成文本 Transformers
T
omni-research
103
17
TEMPURA Qwen2.5 VL 3B S2
TEMPURA是一个能够推理因果事件关系并生成未剪辑视频细粒度时间戳描述的视觉语言模型。
视频生成文本 Transformers
T
andaba
102
1
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase