L

Languagebind Video Merge

由LanguageBind開發
LanguageBind是一種通過基於語言的語義對齊將視頻-語言預訓練擴展至N模態的多模態模型,獲得了ICLR 2024的接收。
下載量 10.96k
發布時間 : 11/21/2023

模型概述

LanguageBind採用以語言為核心的多模態預訓練方法,通過語言綁定不同模態,支持視頻、音頻、深度、熱成像等多種模態的語義對齊。

模型特點

語言為核心的多模態對齊
通過語言模態作為橋樑,實現視頻、音頻、深度、熱成像等多種模態的語義對齊
海量多模態數據集
提供VIDAL-10M數據集,包含1000萬跨視頻、紅外、深度、音頻及其對應語言的數據
多視角增強描述訓練
對語言進行多視角增強,融合元數據、空間與時間信息,並用ChatGPT增強語言描述

模型能力

視頻-語言語義對齊
音頻-語言語義對齊
深度圖像-語言語義對齊
熱成像-語言語義對齊
跨模態相似度計算

使用案例

視頻理解
視頻檢索
通過文本查詢檢索相關視頻內容
在MSR-VTT數據集上達到44.8的零樣本檢索準確率
音頻分析
音頻事件檢測
識別音頻中的特定事件或聲音
在5個音頻數據集上取得SOTA性能
特殊視覺模態處理
熱成像分析
理解熱成像圖像的內容和語義
深度圖像理解
解析深度圖像中的場景和對象
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase