# 視頻理解

Vjepa2 Vitl Fpc64 256
MIT
V-JEPA 2是Meta旗下FAIR團隊開發的前沿視頻理解模型,擴展了VJEPA的預訓練目標,具備業界領先的視頻理解能力。
視頻處理 Transformers
V
facebook
109
27
Test With Sdfvd
基於MCG-NJU/videomae-base微調的視頻理解模型,在評估集上表現一般(準確率50%)
視頻處理 Transformers
T
cocovani
16
0
Internvl3 8B Hf
其他
InternVL3 是一個先進的多模態大語言模型系列,具備強大的多模態感知和推理能力,支持圖像、視頻和文本輸入。
圖像生成文本 Transformers 其他
I
OpenGVLab
454
1
Internvl3 2B Hf
其他
InternVL3-2B是基於Hugging Face Transformers庫實現的多模態大語言模型,在圖像、視頻和文本處理等多模態任務上表現出色,支持多種輸入方式和高效的批量推理。
圖像生成文本 Transformers 其他
I
OpenGVLab
41.22k
2
Internvl3 1B Hf
其他
InternVL3 是一個先進的多模態大語言模型系列,展示了卓越的多模態感知和推理能力,支持圖像、視頻和文本輸入。
圖像生成文本 Transformers 其他
I
OpenGVLab
1,844
2
Datatrain Videomae Base Finetuned Lr1e 07 Poly3
基於MCG-NJU/videomae-base微調的視頻理解模型,在未知數據集上訓練,準確率為11.1%
視頻處理 Transformers
D
EloiseInacio
13
0
Videomae Base Finetuned 1e 08 Bs4 Ep2
基於MCG-NJU/videomae-base微調的視頻理解模型,在未知數據集上進行了訓練
視頻處理 Transformers
V
EloiseInacio
14
0
Qwen2.5 Omni 7B GPTQ 4bit
MIT
基於Qwen2.5-Omni-7B模型的4比特GPTQ量化版本,支持多語言和多模態任務。
多模態融合 Safetensors 支持多種語言
Q
FunAGI
3,957
51
Slowfast Video Mllm Qwen2 7b Convnext 576 Frame96 S1t6
採用創新的慢快架構來平衡視頻理解中的時間分辨率和空間細節,克服了傳統大語言模型的序列長度限制。
視頻生成文本 Transformers
S
shi-labs
81
0
Videollama2.1 7B AV CoT
Apache-2.0
VideoLLaMA2.1-7B-AV是一款多模態大語言模型,專注於視聽問答任務,能夠同時處理視頻和音頻輸入,提供高質量的問答和描述生成能力。
視頻生成文本 Transformers 英語
V
lym0302
34
0
Videomind 2B
Bsd-3-clause
VideoMind是一個多模態智能體框架,通過模擬人類思維的處理流程(如任務拆解、時刻定位與驗證和答案合成)來增強視頻推理能力。
視頻生成文本
V
yeliudev
207
1
Slowfast Video Mllm Qwen2 7b Convnext 576 Frame64 S1t4
採用慢-快架構的視頻多模態大語言模型,平衡時間分辨率和空間細節,支持64幀視頻理解
視頻生成文本 Transformers
S
shi-labs
184
0
Tinyllava Video Qwen2.5 3B Group 16 512
Apache-2.0
TinyLLaVA-Video是基於Qwen2.5-3B和siglip-so400m-patch14-384構建的視頻理解模型,採用分組重採樣器處理視頻幀
視頻生成文本
T
Zhang199
76
0
Internvl 2 5 HiCo R16
Apache-2.0
InternVideo2.5 是一款基於長且豐富的上下文(LRC)建模增強的視頻多模態大語言模型(MLLM),構建於 InternVL2.5 之上。
文本生成視頻 Transformers 英語
I
FriendliAI
129
1
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video-7B-hf 是一個基於視頻的多模態模型,能夠處理視頻和文本輸入,生成文本輸出。
視頻生成文本 Safetensors 英語
L
FriendliAI
30
0
Videomae Base Finetuned Signlanguage Last 3
基於MCG-NJU/videomae-base微調的視頻理解模型,專注於手語識別任務
視頻處理 Transformers
V
ihsanahakiim
21
1
Internvl2 5 4B AWQ
MIT
InternVL2_5-4B-AWQ 是使用 autoawq 對 InternVL2_5-4B 進行 AWQ 量化的版本,支持多語言和多模態任務。
圖像生成文本 Transformers 其他
I
rootonchair
29
2
Magma 8B
MIT
Magma是一個多模態AI智能體基礎模型,能夠處理圖像和文本輸入並生成文本輸出,具備虛擬與現實環境中的複雜交互能力。
圖像生成文本 Transformers
M
microsoft
4,526
363
Smolvlm2 500M Video Instruct
Apache-2.0
輕量級多模態模型,專為分析視頻內容設計,可處理視頻、圖像和文本輸入以生成文本輸出。
圖像生成文本 Transformers 英語
S
HuggingFaceTB
17.89k
56
Smolvlm2 2.2B Instruct
Apache-2.0
SmolVLM2-2.2B 是一款輕量級多模態模型,專為分析視頻內容而設計,可處理視頻、圖像和文本輸入並生成文本輸出。
圖像生成文本 Transformers 英語
S
HuggingFaceTB
62.56k
164
Fluxi AI Small Vision
Apache-2.0
Fluxi AI 是一款基於 Qwen2-VL-7B-Instruct 的多模態智能助手,具備文本、圖像和視頻處理能力,特別優化了葡萄牙語支持。
圖像生成文本 Transformers 其他
F
JJhooww
25
2
Internlm Xcomposer2d5 7b Chat
其他
InternLM-XComposer2.5-Chat是基於InternLM-XComposer2.5-7B訓練的對話模型,在多模態指令跟隨和開放式對話能力方面有顯著提升。
文本生成圖像 PyTorch
I
internlm
87
5
Eagle2 2B
Eagle2是NVIDIA推出的高性能視覺語言模型家族,專注於通過數據策略和訓練方案提升開源視覺語言模型的性能。Eagle2-2B是該系列中的輕量級模型,在保持強勁性能的同時實現卓越效率和速度。
文本生成圖像 Transformers 其他
E
nvidia
667
21
Eagle2 9B
Eagle2-9B是NVIDIA發佈的最新視覺語言模型(VLM),在性能和推理速度之間實現了完美平衡。它基於Qwen2.5-7B-Instruct語言模型和Siglip+ConvNext視覺模型構建,支持多語言和多模態任務。
圖像生成文本 Transformers 其他
E
nvidia
944
52
Llava Mini Llama 3.1 8b
Gpl-3.0
LLaVA-Mini是一款高效的多模態大模型,通過僅使用1個視覺令牌表示圖像,顯著提升了圖像和視頻理解的效率。
圖像生成文本
L
ICTNLP
12.45k
51
Xgen Mm Vid Phi3 Mini R V1.5 128tokens 8frames
xGen-MM-Vid (BLIP-3-Video) 是一款高效的緊湊型視覺語言模型,配備了顯式的時間編碼器,專為理解視頻內容而設計。
視頻生成文本 Safetensors 英語
X
Salesforce
398
11
Mplug Owl3 7B 240728
Apache-2.0
mPLUG-Owl3 是一款前沿的多模態大語言模型,專為解決長圖像序列理解難題而設計,支持處理單圖、多圖和視頻任務。
文本生成圖像 英語
M
mPLUG
4,823
39
Minicpm V 2 6 Int4
MiniCPM-V 2.6是一個多模態視覺語言模型,支持圖像文本到文本的轉換,具備多語言處理能力。
圖像生成文本 Transformers 其他
M
openbmb
122.58k
79
Llava NeXT Video 7B DPO
LLaVA-Next-Video 是一個開源的多模態對話模型,通過對大語言模型進行多模態指令跟隨數據的微調訓練而成,支持視頻和文本的多模態交互。
文本生成視頻 Transformers
L
lmms-lab
8,049
27
Llava NeXT Video 7B
LLaVA-Next-Video 是一款開源的多模態對話機器人,通過大語言模型微調訓練而成,支持視頻和文本的多模態交互。
文本生成視頻 Transformers
L
lmms-lab
1,146
46
Model Timesformer Subset 02
基於TimeSformer架構的視頻理解模型,在未知數據集上微調,準確率達88.52%
視頻處理 Transformers
M
namnh2002
15
0
Videomae Base Finetuned Subset
基於MCG-NJU/videomae-base模型在未知數據集上微調的視頻理解模型,準確率達67.13%
視頻處理 Transformers
V
Joy28
2
0
MMICL Instructblip T5 Xxl
MIT
MMICL是一個結合了blip2/instructblip的多模態視覺語言模型,能夠分析和理解多張圖像並遵循指令。
圖像生成文本 Transformers 英語
M
BleachNick
156
11
Videomae Base Ipm All Videos
基於VideoMAE基礎模型在未知視頻數據集上微調的視覺模型,主要用於視頻理解任務,在評估集上達到85.59%的準確率。
視頻處理 Transformers
V
rickysk
30
0
Videomae Base Finetuned
基於MCG-NJU/videomae-base在未知數據集上微調的視頻理解模型,F1分數達到0.7147
視頻處理 Transformers
V
sheraz179
15
0
Videomae Base Finetuned
基於VideoMAE基礎模型在未知數據集上微調的視頻理解模型,在評估集上達到86.41%的準確率
視頻處理 Transformers
V
LouisDT
15
0
Vivit B 16x2
MIT
ViViT是對視覺變換器(ViT)的擴展,適用於視頻處理,主要用於視頻分類等下游任務。
視頻處理 Transformers
V
google
989
11
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase