V

Videomind 2B FT QVHighlights

由yeliudev開發
VideoMind是一個多模態智能體框架,通過模擬類人的認知過程來增強視頻推理能力。
下載量 20
發布時間 : 3/24/2025

模型概述

VideoMind是一個多模態智能體框架,通過模擬類人的認知過程(如任務分解、時刻定位與驗證以及答案合成)來增強視頻推理能力。

模型特點

類人認知過程模擬
通過任務分解、時刻定位與驗證以及答案合成等類人認知過程增強視頻推理能力。
多模態智能體框架
支持視頻和文本的多模態輸入,實現更全面的視頻理解。
LoRA鏈式智能體
採用LoRA鏈式智能體技術,優化長視頻推理能力。

模型能力

視頻推理
多模態理解
任務分解
時刻定位與驗證
答案合成

使用案例

視頻分析
高光時刻提取
從長視頻中提取關鍵高光時刻,生成簡潔的文本描述。
視頻內容總結
對視頻內容進行總結,生成簡短的文本摘要。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase