2025年最佳 67 款視頻生成文本工具

Llava Video 7B Qwen2
Apache-2.0
LLaVA-視頻模型是基於Qwen2語言模型的7B參數多模態模型,專注於視頻理解任務,支持64幀視頻輸入。
視頻生成文本 Transformers 英語
L
lmms-lab
34.28k
91
Llava NeXT Video 7B DPO Hf
LLaVA-NeXT-Video是一個開源多模態聊天機器人,通過視頻和圖像數據混合訓練優化,具備優秀的視頻理解能力。
視頻生成文本 Transformers 英語
L
llava-hf
12.61k
9
Internvideo2 5 Chat 8B
Apache-2.0
InternVideo2.5是一款基於長且豐富上下文(LRC)建模增強的視頻多模態大語言模型,構建於InternVL2.5之上,通過提升感知細粒度細節和捕捉長時序結構的能力,顯著改進了現有MLLM模型。
視頻生成文本 Transformers 英語
I
OpenGVLab
8,265
60
Cogvlm2 Llama3 Caption
其他
CogVLM2-Caption是一個視頻描述生成模型,用於為CogVideoX模型生成訓練數據。
視頻生成文本 Transformers 英語
C
THUDM
7,493
95
Spacetimegpt
時空GPT是一個能夠進行空間和時間推理的視頻描述生成模型,能夠分析視頻幀並生成描述視頻事件的句子。
視頻生成文本 Transformers 英語
S
Neleac
2,877
33
Video R1 7B
Apache-2.0
Video-R1-7B是基於Qwen2.5-VL-7B-Instruct優化的多模態大語言模型,專注於視頻推理任務,能夠理解視頻內容並回答相關問題。
視頻生成文本 Transformers 英語
V
Video-R1
2,129
9
Internvl 2 5 HiCo R16
Apache-2.0
InternVideo2.5 是一個基於 InternVL2.5 構建的視頻多模態大語言模型(MLLM),通過長且豐富的上下文(LRC)建模進行了增強,能夠感知細粒度細節並捕捉長時態結構。
視頻生成文本 Transformers 英語
I
OpenGVLab
1,914
3
Videollm Online 8b V1plus
MIT
VideoLLM-online是一個基於Llama-3-8B-Instruct的多模態大語言模型,專注於在線視頻理解和視頻-文本生成任務。
視頻生成文本 英語
V
chenjoya
1,688
23
Videochat R1 7B
Apache-2.0
VideoChat-R1_7B 是一個基於 Qwen2.5-VL-7B-Instruct 的多模態視頻理解模型,能夠處理視頻和文本輸入,生成文本輸出。
視頻生成文本 Transformers 英語
V
OpenGVLab
1,686
7
Qwen2.5 Vl 7b Cam Motion Preview
其他
基於Qwen2.5-VL-7B-Instruct微調的攝像機運動分析模型,專注於視頻中的攝像機運動分類和視頻-文本檢索任務
視頻生成文本 Transformers
Q
chancharikm
1,456
10
Mambavision B 1K
Apache-2.0
PAVE是一個專注於視頻大語言模型修補與適配的模型,旨在提升視頻與文本之間的轉換能力。
視頻生成文本 Transformers
M
nvidia
1,082
11
Longvu Llama3 2 3B
Apache-2.0
LongVU是一種面向長視頻語言理解的時空自適應壓縮技術,旨在高效處理長視頻內容。
視頻生成文本 PyTorch
L
Vision-CAIR
1,079
7
Videochat Flash Qwen2 5 2B Res448
Apache-2.0
VideoChat-Flash-2B是基於UMT-L(300M)和Qwen2.5-1.5B構建的多模態模型,支持視頻文本轉文本任務,僅使用每幀16個標記,並擴展上下文窗口至128k。
視頻生成文本 Transformers 英語
V
OpenGVLab
904
18
Vamba Qwen2 VL 7B
MIT
Vamba是一種混合Mamba-Transformer架構,通過交叉注意力層與Mamba-2模塊實現高效的長視頻理解。
視頻生成文本 Transformers
V
TIGER-Lab
806
16
Videochat R1 Thinking 7B
Apache-2.0
VideoChat-R1-thinking_7B 是一個基於 Qwen2.5-VL-7B-Instruct 的多模態模型,專注於視頻文本轉文本任務。
視頻生成文本 Transformers 英語
V
OpenGVLab
800
0
Videochat Flash Qwen2 7B Res448
Apache-2.0
VideoChat-Flash-7B是基於UMT-L (300M)和Qwen2-7B構建的多模態模型,每幀僅使用16個標記,支持輸入序列長達約10,000幀。
視頻生成文本 Transformers 英語
V
OpenGVLab
661
12
Tarsier 7b
Tarsier-7b 是 Tarsier 系列的開源大規模視頻語言模型,專注於生成高質量視頻描述並具備優秀的通用視頻理解能力。
視頻生成文本 Transformers
T
omni-research
635
23
Internvideo2 Stage2 6B
MIT
InternVideo2是一個多模態視頻理解模型,具有6B參數規模,專注於視頻內容分析和理解任務。
視頻生成文本
I
OpenGVLab
542
0
Internvideo2 Chat 8B
MIT
InternVideo2-Chat-8B是一個結合大型語言模型(LLM)和視頻BLIP的視頻理解模型,通過漸進式學習方案構建,能夠進行視頻語義理解和人機交互。
視頻生成文本 Transformers 英語
I
OpenGVLab
492
22
Llava Video 7B Qwen2 TPO
MIT
LLaVA-Video-7B-Qwen2-TPO是基於LLaVA-Video-7B-Qwen2進行時間偏好優化的視頻理解模型,在多個基準測試中表現優異。
視頻生成文本 Transformers
L
ruili0
490
1
Longvu Llama3 2 1B
Apache-2.0
LongVU 是一種面向長視頻語言理解的時空自適應壓縮技術,旨在高效處理長視頻內容,提升語言理解能力。
視頻生成文本
L
Vision-CAIR
465
11
Video Blip Opt 2.7b Ego4d
MIT
VideoBLIP是BLIP-2的增強版本,能夠處理視頻數據,採用OPT-2.7b作為語言模型主幹。
視頻生成文本 Transformers 英語
V
kpyu
429
16
Xgen Mm Vid Phi3 Mini R V1.5 128tokens 8frames
xGen-MM-Vid (BLIP-3-Video) 是一款高效的緊湊型視覺語言模型,配備了顯式的時間編碼器,專為理解視頻內容而設計。
視頻生成文本 Safetensors 英語
X
Salesforce
398
11
Videochat2 HD Stage4 Mistral 7B Hf
MIT
VideoChat2-HD-hf是一個基於Mistral-7B的多模態視頻理解模型,專注於視頻文本轉換任務。
視頻生成文本
V
OpenGVLab
393
3
Skycaptioner V1
Apache-2.0
SkyCaptioner-V1是專為視頻數據生成高質量結構化描述而設計的模型,通過整合專業子專家模型、多模態大語言模型與人工標註,解決了通用描述模型在專業影視細節捕捉上的侷限。
視頻生成文本 Transformers
S
Skywork
362
29
Sharecaptioner Video
基於GPT4V標註數據微調的開源視頻描述生成器,支持不同時長、寬高比和分辨率的視頻
視頻生成文本 Transformers
S
Lin-Chen
264
17
Internvl 2 5 HiCo R64
Apache-2.0
基於長且豐富的上下文(LRC)建模增強的視頻多模態大語言模型,通過提升感知細粒度細節和捕捉長時態結構的能力改進現有MLLM
視頻生成文本 Transformers 英語
I
OpenGVLab
252
2
Longvu Qwen2 7B
Apache-2.0
LongVU是基於Qwen2-7B的多模態模型,專注於長視頻語言理解任務,採用時空自適應壓縮技術。
視頻生成文本
L
Vision-CAIR
230
69
Longva 7B TPO
MIT
LongVA-7B-TPO是基於LongVA-7B通過時序偏好優化而來的視頻-文本模型,在長視頻理解任務中表現優異。
視頻生成文本 Transformers
L
ruili0
225
1
Llavaction 0.5B
LLaVAction是一個用於動作識別的多模態大語言模型,基於Qwen2語言模型,在EPIC-KITCHENS-100-MQA數據集上訓練而成。
視頻生成文本 Transformers 英語
L
MLAdaptiveIntelligence
215
1
Llava NeXT Video 34B DPO
Llama 2 是 Meta 開發的一系列開源大語言模型,支持多種自然語言處理任務。
視頻生成文本 Transformers
L
lmms-lab
214
10
Videomind 2B
Bsd-3-clause
VideoMind是一個多模態智能體框架,通過模擬人類思維的處理流程(如任務拆解、時刻定位與驗證和答案合成)來增強視頻推理能力。
視頻生成文本
V
yeliudev
207
1
Internvideo2 Chat 8B HD
MIT
InternVideo2-Chat-8B-HD 是一個結合了大型語言模型和視頻BLIP的視頻理解模型,通過漸進式學習方案構建,能夠處理高清視頻輸入。
視頻生成文本
I
OpenGVLab
190
16
Slowfast Video Mllm Qwen2 7b Convnext 576 Frame64 S1t4
採用慢-快架構的視頻多模態大語言模型,平衡時間分辨率和空間細節,支持64幀視頻理解
視頻生成文本 Transformers
S
shi-labs
184
0
Videollama2.1 7B 16F Base
Apache-2.0
VideoLLaMA2.1是基於VideoLLaMA2的升級版本,專注於提升視頻大語言模型中的時空建模與音頻理解能力。
視頻生成文本 Transformers 英語
V
DAMO-NLP-SG
179
1
Kangaroo
Apache-2.0
袋鼠是一個專為長視頻理解設計的強大多模態大語言模型,支持中英雙語對話和長視頻輸入。
視頻生成文本 Transformers 支持多種語言
K
KangarooGroup
163
12
Llavaction 7B
LLaVAction是一個面向動作識別的多模態大語言模型評估與訓練框架,基於Qwen2語言模型架構,支持第一人稱視角視頻理解。
視頻生成文本 Transformers 英語
L
MLAdaptiveIntelligence
149
1
Timezero ActivityNet 7B
TimeZero是一種基於推理引導的大規模視覺語言模型(LVLM),專為時間視頻定位(TVG)任務設計,通過強化學習方法實現動態視頻-語言關係分析。
視頻生成文本 Transformers
T
wwwyyy
142
1
Tinyllava Video R1
Apache-2.0
TinyLLaVA-Video-R1是基於可溯源訓練模型TinyLLaVA-Video的小規模視頻推理模型,通過強化學習顯著提升了推理與思維能力,並展現出'頓悟時刻'的湧現特性。
視頻生成文本 Transformers
T
Zhang199
123
2
Tarsier 34b
Apache-2.0
Tarsier-34b 是一個開源的大規模視頻語言模型,專注於生成高質量的視頻描述,並在多個公開基準測試中取得領先成績。
視頻生成文本 Transformers
T
omni-research
103
17
TEMPURA Qwen2.5 VL 3B S2
TEMPURA是一個能夠推理因果事件關係並生成未剪輯視頻細粒度時間戳描述的視覺語言模型。
視頻生成文本 Transformers
T
andaba
102
1
Videomind 7B
Bsd-3-clause
VideoMind是一個多模態智能體框架,通過模擬人類思維過程來增強視頻推理能力。
視頻生成文本
V
yeliudev
90
2
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase