A

Apollo LMMs Apollo 1 5B T32

由GoodiesHere開發
Apollo 是一系列專注於視頻理解的大型多模態模型,擅長處理長視頻內容理解、時序推理和複雜視頻問答等任務。
下載量 37
發布時間 : 12/18/2024

模型概述

Apollo 模型通過戰略設計平衡速度與精度,能夠處理長達一小時的視頻內容,並在小參數規模下實現與大模型的競爭性能。

模型特點

可擴展一致性
在小模型和數據集上驗證的設計方案能有效遷移至更大規模,降低計算與實驗成本
高效視頻採樣
fps採樣與先進token重採樣策略(如Perceiver)帶來更強時序感知
編碼器協同
SigLIP-SO400M(圖像)與InternVideo2(視頻)組合形成魯棒表徵,在時序任務上超越單一編碼器
ApolloBench
精簡評估基準(提速41倍),專注真實視頻理解能力評估

模型能力

長視頻內容理解
時序推理
複雜視頻問答
基於視頻內容的多輪對話

使用案例

視頻分析
視頻內容描述
對長達一小時的視頻內容進行詳細描述
能夠準確捕捉視頻中的關鍵內容和時序關係
視頻問答
回答關於視頻內容的複雜問題
在複雜視頻問答任務上表現優異
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase