L

Languagebind Video

由LanguageBind開發
LanguageBind是一種通過語言語義對齊將視頻-語言預訓練擴展至N模態的多模態預訓練框架,被ICLR 2024收錄。
下載量 166
發布時間 : 10/6/2023

模型概述

LanguageBind採用以語言為核心的多模態預訓練框架,通過語言橋接不同模態,充分利用語言模態語義豐富的特性。

模型特點

高性能免中間模態
通過語言橋接不同模態,充分利用語言模態語義豐富的特性,可輕鬆擴展至分割、檢測等任務,理論上支持無限模態擴展。
多模態全對齊海量數據集
發佈VIDAL-10M數據集,包含1000萬條視頻、紅外、深度、音頻與語言數據,極大拓展了視覺模態邊界。
多視角語言增強
創新性提出融合元數據、空間、時序的多視角語言描述方法,並通過ChatGPT強化語義,為各模態構建優質語義對齊空間。

模型能力

多模態語義對齊
視頻理解
音頻理解
紅外圖像理解
深度圖像理解
語言語義增強

使用案例

視頻理解
視頻內容分析
通過視頻與語言的語義對齊,實現對視頻內容的深度理解。
在多個視頻理解任務上達到業界最佳性能。
音頻理解
音頻內容分析
通過音頻與語言的語義對齊,實現對音頻內容的深度理解。
在5個數據集上達到業界最佳性能。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase