視頻生成文本

2025年最佳 67 款視頻生成文本工具

Llava Video 7B Qwen2

LLaVA-視頻模型是基於Qwen2語言模型的7B參數多模態模型，專注於視頻理解任務，支持64幀視頻輸入。

視頻生成文本

Transformers 英語

Llava NeXT Video 7B DPO Hf

LLaVA-NeXT-Video是一個開源多模態聊天機器人，通過視頻和圖像數據混合訓練優化，具備優秀的視頻理解能力。

視頻生成文本

Transformers 英語

Internvideo2 5 Chat 8B

InternVideo2.5是一款基於長且豐富上下文(LRC)建模增強的視頻多模態大語言模型，構建於InternVL2.5之上，通過提升感知細粒度細節和捕捉長時序結構的能力，顯著改進了現有MLLM模型。

視頻生成文本

Transformers 英語

Cogvlm2 Llama3 Caption

CogVLM2-Caption是一個視頻描述生成模型，用於為CogVideoX模型生成訓練數據。

視頻生成文本

Transformers 英語

時空GPT是一個能夠進行空間和時間推理的視頻描述生成模型，能夠分析視頻幀並生成描述視頻事件的句子。

視頻生成文本

Transformers 英語

Video-R1-7B是基於Qwen2.5-VL-7B-Instruct優化的多模態大語言模型，專注於視頻推理任務，能夠理解視頻內容並回答相關問題。

視頻生成文本

Transformers 英語

Internvl 2 5 HiCo R16

InternVideo2.5 是一個基於 InternVL2.5 構建的視頻多模態大語言模型（MLLM），通過長且豐富的上下文（LRC）建模進行了增強，能夠感知細粒度細節並捕捉長時態結構。

視頻生成文本

Transformers 英語

Videollm Online 8b V1plus

VideoLLM-online是一個基於Llama-3-8B-Instruct的多模態大語言模型，專注於在線視頻理解和視頻-文本生成任務。

視頻生成文本英語

Videochat R1 7B

VideoChat-R1_7B 是一個基於 Qwen2.5-VL-7B-Instruct 的多模態視頻理解模型，能夠處理視頻和文本輸入，生成文本輸出。

視頻生成文本

Transformers 英語

Qwen2.5 Vl 7b Cam Motion Preview

基於Qwen2.5-VL-7B-Instruct微調的攝像機運動分析模型，專注於視頻中的攝像機運動分類和視頻-文本檢索任務

視頻生成文本

Mambavision B 1K

PAVE是一個專注於視頻大語言模型修補與適配的模型，旨在提升視頻與文本之間的轉換能力。

視頻生成文本

Longvu Llama3 2 3B

LongVU是一種面向長視頻語言理解的時空自適應壓縮技術，旨在高效處理長視頻內容。

視頻生成文本

Videochat Flash Qwen2 5 2B Res448

VideoChat-Flash-2B是基於UMT-L（300M）和Qwen2.5-1.5B構建的多模態模型，支持視頻文本轉文本任務，僅使用每幀16個標記，並擴展上下文窗口至128k。

視頻生成文本

Transformers 英語

Vamba Qwen2 VL 7B

Vamba是一種混合Mamba-Transformer架構，通過交叉注意力層與Mamba-2模塊實現高效的長視頻理解。

視頻生成文本

Videochat R1 Thinking 7B

VideoChat-R1-thinking_7B 是一個基於 Qwen2.5-VL-7B-Instruct 的多模態模型，專注於視頻文本轉文本任務。

視頻生成文本

Transformers 英語

Videochat Flash Qwen2 7B Res448

VideoChat-Flash-7B是基於UMT-L (300M)和Qwen2-7B構建的多模態模型，每幀僅使用16個標記，支持輸入序列長達約10,000幀。

視頻生成文本

Transformers 英語

Tarsier-7b 是 Tarsier 系列的開源大規模視頻語言模型，專注於生成高質量視頻描述並具備優秀的通用視頻理解能力。

視頻生成文本

Internvideo2 Stage2 6B

InternVideo2是一個多模態視頻理解模型，具有6B參數規模，專注於視頻內容分析和理解任務。

視頻生成文本

Internvideo2 Chat 8B

InternVideo2-Chat-8B是一個結合大型語言模型(LLM)和視頻BLIP的視頻理解模型，通過漸進式學習方案構建，能夠進行視頻語義理解和人機交互。

視頻生成文本

Transformers 英語

Llava Video 7B Qwen2 TPO

LLaVA-Video-7B-Qwen2-TPO是基於LLaVA-Video-7B-Qwen2進行時間偏好優化的視頻理解模型，在多個基準測試中表現優異。

視頻生成文本

Longvu Llama3 2 1B

LongVU 是一種面向長視頻語言理解的時空自適應壓縮技術，旨在高效處理長視頻內容，提升語言理解能力。

視頻生成文本

Video Blip Opt 2.7b Ego4d

VideoBLIP是BLIP-2的增強版本，能夠處理視頻數據，採用OPT-2.7b作為語言模型主幹。

視頻生成文本

Transformers 英語

Xgen Mm Vid Phi3 Mini R V1.5 128tokens 8frames

xGen-MM-Vid (BLIP-3-Video) 是一款高效的緊湊型視覺語言模型，配備了顯式的時間編碼器，專為理解視頻內容而設計。

視頻生成文本

Safetensors 英語

Videochat2 HD Stage4 Mistral 7B Hf

VideoChat2-HD-hf是一個基於Mistral-7B的多模態視頻理解模型，專注於視頻文本轉換任務。

視頻生成文本

Skycaptioner V1

SkyCaptioner-V1是專為視頻數據生成高質量結構化描述而設計的模型，通過整合專業子專家模型、多模態大語言模型與人工標註，解決了通用描述模型在專業影視細節捕捉上的侷限。

視頻生成文本

Sharecaptioner Video

基於GPT4V標註數據微調的開源視頻描述生成器，支持不同時長、寬高比和分辨率的視頻

視頻生成文本

Internvl 2 5 HiCo R64

基於長且豐富的上下文（LRC）建模增強的視頻多模態大語言模型，通過提升感知細粒度細節和捕捉長時態結構的能力改進現有MLLM

視頻生成文本

Transformers 英語

Longvu Qwen2 7B

LongVU是基於Qwen2-7B的多模態模型，專注於長視頻語言理解任務，採用時空自適應壓縮技術。

視頻生成文本

LongVA-7B-TPO是基於LongVA-7B通過時序偏好優化而來的視頻-文本模型，在長視頻理解任務中表現優異。

視頻生成文本

Llavaction 0.5B

LLaVAction是一個用於動作識別的多模態大語言模型，基於Qwen2語言模型，在EPIC-KITCHENS-100-MQA數據集上訓練而成。

視頻生成文本

Transformers 英語

MLAdaptiveIntelligence

Llava NeXT Video 34B DPO

Llama 2 是 Meta 開發的一系列開源大語言模型，支持多種自然語言處理任務。

視頻生成文本

VideoMind是一個多模態智能體框架，通過模擬人類思維的處理流程（如任務拆解、時刻定位與驗證和答案合成）來增強視頻推理能力。

視頻生成文本

Internvideo2 Chat 8B HD

InternVideo2-Chat-8B-HD 是一個結合了大型語言模型和視頻BLIP的視頻理解模型，通過漸進式學習方案構建，能夠處理高清視頻輸入。

視頻生成文本

Slowfast Video Mllm Qwen2 7b Convnext 576 Frame64 S1t4

採用慢-快架構的視頻多模態大語言模型，平衡時間分辨率和空間細節，支持64幀視頻理解

視頻生成文本

Videollama2.1 7B 16F Base

VideoLLaMA2.1是基於VideoLLaMA2的升級版本，專注於提升視頻大語言模型中的時空建模與音頻理解能力。

視頻生成文本

Transformers 英語

袋鼠是一個專為長視頻理解設計的強大多模態大語言模型，支持中英雙語對話和長視頻輸入。

視頻生成文本

Transformers 支持多種語言

LLaVAction是一個面向動作識別的多模態大語言模型評估與訓練框架，基於Qwen2語言模型架構，支持第一人稱視角視頻理解。

視頻生成文本

Transformers 英語

MLAdaptiveIntelligence

Timezero ActivityNet 7B

TimeZero是一種基於推理引導的大規模視覺語言模型（LVLM），專為時間視頻定位（TVG）任務設計，通過強化學習方法實現動態視頻-語言關係分析。

視頻生成文本

Tinyllava Video R1

TinyLLaVA-Video-R1是基於可溯源訓練模型TinyLLaVA-Video的小規模視頻推理模型，通過強化學習顯著提升了推理與思維能力，並展現出'頓悟時刻'的湧現特性。

視頻生成文本

Tarsier-34b 是一個開源的大規模視頻語言模型，專注於生成高質量的視頻描述，並在多個公開基準測試中取得領先成績。

視頻生成文本

TEMPURA Qwen2.5 VL 3B S2

TEMPURA是一個能夠推理因果事件關係並生成未剪輯視頻細粒度時間戳描述的視覺語言模型。

視頻生成文本

VideoMind是一個多模態智能體框架，通過模擬人類思維過程來增強視頻推理能力。

視頻生成文本

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase