视频生成文本

2025年最佳的 68 个视频生成文本工具

Llava Video 7B Qwen2

LLaVA-视频模型是基于Qwen2语言模型的7B参数多模态模型，专注于视频理解任务，支持64帧视频输入。

视频生成文本

Transformers 英语

Llava NeXT Video 7B DPO Hf

LLaVA-NeXT-Video是一个开源多模态聊天机器人，通过视频和图像数据混合训练优化，具备优秀的视频理解能力。

视频生成文本

Transformers 英语

Internvideo2 5 Chat 8B

InternVideo2.5是一款基于长且丰富上下文(LRC)建模增强的视频多模态大语言模型，构建于InternVL2.5之上，通过提升感知细粒度细节和捕捉长时序结构的能力，显著改进了现有MLLM模型。

视频生成文本

Transformers 英语

Cogvlm2 Llama3 Caption

CogVLM2-Caption是一个视频描述生成模型，用于为CogVideoX模型生成训练数据。

视频生成文本

Transformers 英语

时空GPT是一个能够进行空间和时间推理的视频描述生成模型，能够分析视频帧并生成描述视频事件的句子。

视频生成文本

Transformers 英语

Video-R1-7B是基于Qwen2.5-VL-7B-Instruct优化的多模态大语言模型，专注于视频推理任务，能够理解视频内容并回答相关问题。

视频生成文本

Transformers 英语

Internvl 2 5 HiCo R16

InternVideo2.5 是一个基于 InternVL2.5 构建的视频多模态大语言模型（MLLM），通过长且丰富的上下文（LRC）建模进行了增强，能够感知细粒度细节并捕捉长时态结构。

视频生成文本

Transformers 英语

Videollm Online 8b V1plus

VideoLLM-online是一个基于Llama-3-8B-Instruct的多模态大语言模型，专注于在线视频理解和视频-文本生成任务。

视频生成文本英语

Videochat R1 7B

VideoChat-R1_7B 是一个基于 Qwen2.5-VL-7B-Instruct 的多模态视频理解模型，能够处理视频和文本输入，生成文本输出。

视频生成文本

Transformers 英语

Qwen2.5 Vl 7b Cam Motion Preview

基于Qwen2.5-VL-7B-Instruct微调的摄像机运动分析模型，专注于视频中的摄像机运动分类和视频-文本检索任务

视频生成文本

Mambavision B 1K

PAVE是一个专注于视频大语言模型修补与适配的模型，旨在提升视频与文本之间的转换能力。

视频生成文本

Longvu Llama3 2 3B

LongVU是一种面向长视频语言理解的时空自适应压缩技术，旨在高效处理长视频内容。

视频生成文本

Videochat Flash Qwen2 5 2B Res448

VideoChat-Flash-2B是基于UMT-L（300M）和Qwen2.5-1.5B构建的多模态模型，支持视频文本转文本任务，仅使用每帧16个标记，并扩展上下文窗口至128k。

视频生成文本

Transformers 英语

Vamba Qwen2 VL 7B

Vamba是一种混合Mamba-Transformer架构，通过交叉注意力层与Mamba-2模块实现高效的长视频理解。

视频生成文本

Videochat R1 Thinking 7B

VideoChat-R1-thinking_7B 是一个基于 Qwen2.5-VL-7B-Instruct 的多模态模型，专注于视频文本转文本任务。

视频生成文本

Transformers 英语

Videochat Flash Qwen2 7B Res448

VideoChat-Flash-7B是基于UMT-L (300M)和Qwen2-7B构建的多模态模型，每帧仅使用16个标记，支持输入序列长达约10,000帧。

视频生成文本

Transformers 英语

Tarsier-7b 是 Tarsier 系列的开源大规模视频语言模型，专注于生成高质量视频描述并具备优秀的通用视频理解能力。

视频生成文本

Internvideo2 Stage2 6B

InternVideo2是一个多模态视频理解模型，具有6B参数规模，专注于视频内容分析和理解任务。

视频生成文本

Internvideo2 Chat 8B

InternVideo2-Chat-8B是一个结合大型语言模型(LLM)和视频BLIP的视频理解模型，通过渐进式学习方案构建，能够进行视频语义理解和人机交互。

视频生成文本

Transformers 英语

Llava Video 7B Qwen2 TPO

LLaVA-Video-7B-Qwen2-TPO是基于LLaVA-Video-7B-Qwen2进行时间偏好优化的视频理解模型，在多个基准测试中表现优异。

视频生成文本

Longvu Llama3 2 1B

LongVU 是一种面向长视频语言理解的时空自适应压缩技术，旨在高效处理长视频内容，提升语言理解能力。

视频生成文本

Video Blip Opt 2.7b Ego4d

VideoBLIP是BLIP-2的增强版本，能够处理视频数据，采用OPT-2.7b作为语言模型主干。

视频生成文本

Transformers 英语

Xgen Mm Vid Phi3 Mini R V1.5 128tokens 8frames

xGen-MM-Vid (BLIP-3-Video) 是一款高效的紧凑型视觉语言模型，配备了显式的时间编码器，专为理解视频内容而设计。

视频生成文本

Safetensors 英语

Videochat2 HD Stage4 Mistral 7B Hf

VideoChat2-HD-hf是一个基于Mistral-7B的多模态视频理解模型，专注于视频文本转换任务。

视频生成文本

Skycaptioner V1

SkyCaptioner-V1是专为视频数据生成高质量结构化描述而设计的模型，通过整合专业子专家模型、多模态大语言模型与人工标注，解决了通用描述模型在专业影视细节捕捉上的局限。

视频生成文本

Sharecaptioner Video

基于GPT4V标注数据微调的开源视频描述生成器，支持不同时长、宽高比和分辨率的视频

视频生成文本

Internvl 2 5 HiCo R64

基于长且丰富的上下文（LRC）建模增强的视频多模态大语言模型，通过提升感知细粒度细节和捕捉长时态结构的能力改进现有MLLM

视频生成文本

Transformers 英语

Longvu Qwen2 7B

LongVU是基于Qwen2-7B的多模态模型，专注于长视频语言理解任务，采用时空自适应压缩技术。

视频生成文本

LongVA-7B-TPO是基于LongVA-7B通过时序偏好优化而来的视频-文本模型，在长视频理解任务中表现优异。

视频生成文本

Llavaction 0.5B

LLaVAction是一个用于动作识别的多模态大语言模型，基于Qwen2语言模型，在EPIC-KITCHENS-100-MQA数据集上训练而成。

视频生成文本

Transformers 英语

MLAdaptiveIntelligence

Llava NeXT Video 34B DPO

Llama 2 是 Meta 开发的一系列开源大语言模型，支持多种自然语言处理任务。

视频生成文本

VideoMind是一个多模态智能体框架，通过模拟人类思维的处理流程（如任务拆解、时刻定位与验证和答案合成）来增强视频推理能力。

视频生成文本

Internvideo2 Chat 8B HD

InternVideo2-Chat-8B-HD 是一个结合了大型语言模型和视频BLIP的视频理解模型，通过渐进式学习方案构建，能够处理高清视频输入。

视频生成文本

Slowfast Video Mllm Qwen2 7b Convnext 576 Frame64 S1t4

采用慢-快架构的视频多模态大语言模型，平衡时间分辨率和空间细节，支持64帧视频理解

视频生成文本

Timezero Charades 7B

TimeZero是一种基于推理引导的大型视觉语言模型（LVLM），专为时间视频定位（TVG）任务设计，通过强化学习方法实现视频中与自然语言查询相对应的时序片段识别。

视频生成文本

Videollama2.1 7B 16F Base

VideoLLaMA2.1是基于VideoLLaMA2的升级版本，专注于提升视频大语言模型中的时空建模与音频理解能力。

视频生成文本

Transformers 英语

袋鼠是一个专为长视频理解设计的强大多模态大语言模型，支持中英双语对话和长视频输入。

视频生成文本

Transformers 支持多种语言

LLaVAction是一个面向动作识别的多模态大语言模型评估与训练框架，基于Qwen2语言模型架构，支持第一人称视角视频理解。

视频生成文本

Transformers 英语

MLAdaptiveIntelligence

Timezero ActivityNet 7B

TimeZero是一种基于推理引导的大规模视觉语言模型（LVLM），专为时间视频定位（TVG）任务设计，通过强化学习方法实现动态视频-语言关系分析。

视频生成文本

Tinyllava Video R1

TinyLLaVA-Video-R1是基于可溯源训练模型TinyLLaVA-Video的小规模视频推理模型，通过强化学习显著提升了推理与思维能力，并展现出'顿悟时刻'的涌现特性。

视频生成文本

Tarsier-34b 是一个开源的大规模视频语言模型，专注于生成高质量的视频描述，并在多个公开基准测试中取得领先成绩。

视频生成文本

TEMPURA Qwen2.5 VL 3B S2

TEMPURA是一个能够推理因果事件关系并生成未剪辑视频细粒度时间戳描述的视觉语言模型。

视频生成文本

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase