多模態視頻理解

# 多模態視頻理解

Cosmos Reason1 7B GGUF

Cosmos-Reason1是NVIDIA開發的物理AI模型，能夠理解物理常識並通過長鏈思維推理生成具身決策自然語言。

文本生成視頻

Transformers 英語

Qwen2.5 VL 32B Instruct GGUF

Qwen2.5-VL-32B-Instruct 是一個強大的視覺語言模型，具備增強的數學和問題解決能力，適用於多模態任務。

圖像生成文本英語

Cosmos Reason1 7B

Cosmos-Reason1是NVIDIA開發的物理AI模型，能夠理解物理常識並通過長鏈思維推理生成具身決策。

Transformers 英語

基於lmms-lab/llava-onevision-qwen2-7b-ov模型微調的版本，支持視頻文本到文本的轉換任務。

Internvideo2 Stage2 6B

InternVideo2是一個多模態視頻理解模型，具有6B參數規模，專注於視頻內容分析和理解任務。

視頻生成文本

Qwen2.5 VL 72B Instruct Pointer AWQ

Qwen2.5-VL是Qwen家族的最新視覺語言模型，具備增強的視覺理解、代理能力和結構化輸出生成功能。

圖像生成文本

Transformers 英語

VL3 SigLIP NaViT

VideoLLaMA3的視覺編碼器，採用任意分辨率視覺標記化(AVT)技術，動態處理不同分辨率的圖像和視頻。

文本生成圖像

Transformers 英語

Videollama2.1 7B 16F Base

VideoLLaMA2.1是基於VideoLLaMA2的升級版本，專注於提升視頻大語言模型中的時空建模與音頻理解能力。

視頻生成文本

Transformers 英語

Videollama2.1 7B 16F

VideoLLaMA 2是一個多模態大語言模型，專注於視頻理解，具備時空建模和音頻理解能力。

文本生成視頻

Transformers 英語

Videollama2 72B

VideoLLaMA 2是一個多模態大語言模型，專注於視頻理解和時空建模，支持視頻和圖像輸入，能夠進行視覺問答和對話任務。

文本生成視頻

Transformers 英語

Tarsier-34b 是一個開源的大規模視頻語言模型，專注於生成高質量的視頻描述，並在多個公開基準測試中取得領先成績。

視頻生成文本

Videollama2 8x7B Base

VideoLLaMA 2是新一代視頻大語言模型，專注於提升時空建模能力和音頻理解能力，支持多模態視頻問答和描述任務。

文本生成視頻

Transformers 英語

Videollama2 8x7B

VideoLLaMA 2是一個多模態大語言模型，專注於視頻理解和音頻處理，能夠處理視頻和圖像輸入並生成自然語言響應。

文本生成視頻

Transformers 英語

Llava NeXT Video 34B Hf

LLaVA-NeXT-Video是一個開源多模態聊天機器人，通過視頻和圖像數據混合訓練，具備優秀的視頻理解能力。

文本生成視頻

Transformers 英語

Llava NeXT Video 7B DPO Hf

LLaVA-NeXT-Video是一個開源多模態聊天機器人，通過視頻和圖像數據混合訓練優化，具備優秀的視頻理解能力。

視頻生成文本

Transformers 英語

Sharegpt4video 8b

ShareGPT4Video-8B 是一個開源視頻聊天機器人，通過在開源視頻指令數據上進行微調訓練而成。

文本生成視頻

Llava NeXT Video 7B Hf

LLaVA-NeXT-Video是一個開源多模態聊天機器人，通過視頻和圖像數據混合訓練獲得優秀的視頻理解能力，在VideoMME基準上達到開源模型SOTA水平。

文本生成視頻

Transformers 英語

Xclip Large Patch14 Kinetics 600

X-CLIP是CLIP的擴展版本，用於通用視頻語言理解，通過對比學習在視頻和文本對上訓練。

文本生成視頻

Transformers 英語

Xclip Base Patch16 Kinetics 600 16 Frames

X-CLIP是對CLIP的擴展，用於通用視頻語言理解，支持零樣本、少樣本或全監督的視頻分類以及視頻-文本檢索等任務。

文本生成視頻

Transformers 英語

Xclip Base Patch16 Kinetics 600

X-CLIP是CLIP的擴展版本，用於通用的視頻語言理解，通過對比學習在（視頻，文本）對上訓練。

文本生成視頻

Transformers 英語

Xclip Large Patch14

X-CLIP是對CLIP的擴展，用於通用視頻-語言理解，通過對比學習在（視頻，文本）對上訓練。

文本生成視頻

Transformers 英語

Xclip Base Patch16 16 Frames

X-CLIP是對CLIP的極簡擴展，用於通用視頻-語言理解，通過對比學習在（視頻，文本）對上訓練。

文本生成視頻

Transformers 英語

Xclip Base Patch32 16 Frames

X-CLIP是CLIP的擴展版本，用於通用視頻語言理解，通過對比學習在視頻和文本對上訓練，適用於視頻分類和視頻-文本檢索等任務。

文本生成視頻

Transformers 英語

Xclip Base Patch32

X-CLIP是CLIP的擴展版本，用於通用視頻語言理解，通過對比學習在(視頻，文本)對上訓練，適用於視頻分類和視頻-文本檢索等任務。

文本生成視頻

Transformers 英語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase