L

Languagebind Audio FT

由LanguageBind開發
LanguageBind是一種以語言為中心的多模態預訓練方法,通過語言作為不同模態間的紐帶實現語義對齊。
下載量 12.59k
發布時間 : 11/26/2023

模型概述

LanguageBind通過基於語言的語義對齊將視頻-語言預訓練擴展至N模態,支持視頻、音頻、深度、熱成像等多種模態的聯合學習。

模型特點

語言為中心的多模態對齊
將語言作為不同模態間的紐帶,實現視頻、音頻、深度等多模態的語義對齊
海量多模態數據集
使用VIDAL-10M數據集,包含1000萬視頻、紅外、深度、音頻及其對應語言數據
多視角增強描述訓練
通過元數據、空間和時間信息生成多視角描述,並利用ChatGPT增強語言語義

模型能力

視頻-語言檢索
音頻-語言檢索
深度-語言檢索
熱成像-語言檢索
跨模態語義相似度計算

使用案例

視頻理解
視頻內容檢索
根據文本描述檢索相關視頻片段
在MSR-VTT數據集上達到42.7%的準確率
音頻分析
音頻事件檢測
通過文本描述識別音頻中的事件
在多個音頻數據集上達到SOTA性能
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase